Gemini 3 Flash и OCR 3: бюджетные модели задают тон

Лид: В этой неделе Google представил Gemini 3 Flash - версию семейства Gemini, которая делает ставку на скорость и стоимость, а Mistral выпустил OCR 3 для масштабной работы с PDF и сложными документами. Одновременно OpenAI обновил инструменты для изображений и выпустил GPT-5.2-Codex для сложных кодовых задач.

Контраст: еще недавно логика была проста - больше параметров значит лучше. Сейчас мы видим инверсию: алгоритмические улучшения и улучшенные техники дистилляции и RL позволили дешевому варианту обойти Pro-версию по ряду задач. Это не просто релизы - это сдвиг приоритетов в индустрии от масштаба к эффективности.

Gemini 3 Flash - скорость и недорогая мощь

Gemini 3 Flash стал новым дефолтным модельным выбором в приложении Gemini и в AI Mode поиска. Google позиционирует Flash как "frontier intelligence built for speed" и уже заменяет 2.5 Flash в пользовательском стеке. По данным релиза Flash примерно в 3x быстрее и около 4x дешевле по сравнению с Gemini 3 Pro, с ценой около $0.50 за 1 млн входных токенов.

На бенчмарках Flash сопоставим или лучше крупных моделей по ряду задач: 78% на SWE-bench Verified для задач программирования и 90.4% на GPQA Diamond для мультимодального рассуждения. Такая производительность объясняется эффективной дистилляцией и новыми RL-техниками, которые, по словам Google, частично не попали в срез Pro. Ожидается Pro-обновление, которое вернет более привычную иерархию, но сейчас Flash уже стала рабочей лошадкой.

Практика: благодаря скорости и низкой цене Flash идеальна для агентных циклов, где требуется много инференсов. Разработчикам стоит задуматься: сейчас логичнее прототипировать и даже деплоить на Flash-классе, а не сначала на Pro, как это делали раньше. Доступ: Gemini 3 Flash доступна через Gemini API в Google AI Studio, Gemini CLI, Google Antigravity, Vertex AI, Gemini Enterprise и видна конечным пользователям в приложении Gemini и в Поиске.

Mistral OCR 3 - глаз для автоматизации

Mistral OCR 3 рассчитан на извлечение текста и структуры из PDF и сложных документов и выдает структурированные выходы, которые сразу можно подать в RAG, агентов и поисковые пайплайны. По внутренним бенчмаркам OCR 3 показывает 74% выигрышную частоту против OCR 2 на формах, сканированных страницах, таблицах и рукописях.

Особенность OCR 3 - структурированный вывод в Markdown с HTML-таблицами и координатами ограничивающих рамок изображений, что снижает потребление токенов LLM в downstream агентных сценариях. Есть API-эндпойнт, принимающий URL PDF и возвращающий распарсенный текст, по сути это scraper-плюс-OCR. По экономике упоминалось разное ценообразование: ранее говорили о $1 за 1000 страниц с пакетными тарифами, в модели указаны $2 за 1000 страниц для стандартного OCR и $3 за 1000 аннотированных страниц для структурированных аннотаций.

OpenAI обновляет картинки и код

OpenAI выпустил новый флагманский генератор изображений для ChatGPT Images с ускорением генерации до 4x, улучшенным следованием инструкциям и расширенными возможностями редактирования. Модель для разработчиков называется GPT Image 1.5 и доступна в OpenAI Playground, а в ChatGPT появилось отдельное пространство "Images".

Для кода OpenAI представил GPT-5.2-Codex - вариант GPT-5.2, донастроенный под долгие agentic задачи: крупные рефакторинги, миграции, работа с терминалом и улучшенная безопасность. Бенчмарки: 56.4% на SWE-Bench Pro против 55.6% у GPT-5.2 и 64.0% на Terminal-Bench 2.0 против 62.2% у GPT-5.2. Codex доступен на Codex-интерфейсах для платных пользователей ChatGPT.

Другие заметные релизы

Meta SAM Audio - модель для разделения аудио с мульти модальными подсказками, три размера и инструмент для оценки качества разделения.
NVIDIA Nemotron 3 - семейство моделей с весами и инструментами RL, размеры Nano 30B, Super 100B и Ultra 500B, архитектура Mixture-of-Experts с гибридным Mamba Transformer.

Почему это важно и куда идем

Текущая аномалия - бюджетные модели умнее флагманов там, где алгоритмы успели опередить масштаб параметров. Это открывает арбитраж: frontier-класс рассуждений за примерно $0.50 за 1 млн токенов. Для инженеров это означает смену практики - прототипируйте и деплойте на Flash-классе, оптимизируйте затем или переключайтесь на Pro, когда появится смысл.

Комбинация дешевого и способного "глаза" - OCR 3, и дешевого "мозга" - Flash или аналогов, делает реальными масштабные автоматизации: бухгалтерия, проверки соответствия, ввод данных в реальном времени и фоновые производственные процессы. Победителями 2026 года станут команды, которые сложат вместе специализированные, надежные компоненты в рабочие системы, а не те, кто сосредоточится только на эффектных чат-интерфейсах.

Заключение: релизы последней недели показывают сдвиг от гонки параметров к гонке эффективности. Это момент взросления индустрии - переход от демонстраций к утилитарным системам. Если вы планируете внедрять ИИ сейчас, начните с экономичных, быстрых компонентов и проектируйте архитектуру с расчётом на масштаб и интеграцию специализированных модулей.

Праздничная ремарка: выпуск - последний перед Рождеством, авторы дают скидку на курсы и анонсируют курс по Agent Engineering в начале следующего года.