Gemini 3 Flash и эпоха дешевых моделей

Лид. На этой неделе индустрия получила очередной поворот: Google представил Gemini 3 Flash — модель, которая обещает Pro-класс рассуждений, но с гораздо меньшей задержкой и ценой. Одновременно Mistral выпустил OCR 3 для массового парсинга сложных документов, а OpenAI обновила инструменты для изображений и кодинга. Это не просто новые релизы — это сигнал о смене правил игры.

Контраст. Два года индустрия жила в режиме гонки параметров: больше параметров = лучше. Сейчас видно другое: алгоритмы и улучшения RL дают выигрыш по скорости и цене, и бюджетные модели становятся жизнеспособной альтернативой флагманам. Для инженеров это момент арбитража: прототипируйте и деплойте на Flash-классе сегодня, но держите план на случай обновления Pro.

Gemini 3 Flash: что именно произошло

Факт. Google называет Gemini 3 Flash фронтирной моделью, оптимизированной под скорость. Официальные бенчмарки: 78% на SWE-bench Verified по задачам кодинга и 90.4% на GPQA Diamond по мультимодальному рассуждению. Google заявляет, что Flash примерно в 3 раза быстрее и около 4 раз дешевле, чем Gemini 3 Pro; цена указана как 0.50 доллара за миллион входных токенов. Flash уже стал моделью по умолчанию в режиме ''Thinking'' в приложении Gemini и постепенно внедряется в AI Mode для Search.

Доступ. Разработчики получат доступ через Gemini API в Google AI Studio, через Gemini CLI, Google Antigravity, а для предприятий через Vertex AI и Gemini Enterprise.

Почему это сработало. По статье, преимущество Flash частично объясняется улучшенной дистилляцией и новыми RL-техниками, которые появились после cutoff для Pro. Google намекнул, что Pro скоро получит обновление, так что арбитраж может быть временным.

Mistral OCR 3: глаз для RAG-пайплайнов

Факт. Mistral OCR 3 — специализированная OCR-модель для извлечения смешанного текста и изображений из PDF и сложных макетов, с сохранением структуры. В релизе указана общая победа 74% против OCR 2 на формах, сканах, сложных таблицах и почерке. OCR 3 возвращает структурированный Markdown с HTML-таблицами и координатами изображений, есть API, принимающий URL PDF и возвращающий распарсенный результат.

Ценообразование и парадокс. В публичных обсуждениях встречается противоречивая информация: в рассылке упоминалось 1 доллар за 1000 страниц с пакетными скидками, а в карточке модели указано 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурных аннотаций. Тем не менее платная модель по страницам делает OCR 3 экономичнее для высоких объёмов документов, чем токенизация изображений целых PDF через LLM.

OpenAI: изображения и Codex-адаптации

Факт. OpenAI обновила ChatGPT Images и выпустила модель GPT Image 1.5 для разработчиков. Генерация стала до 4 раз быстрее, улучшилось следование инструкциям и возможности редактирования изображений. Модель доступна в OpenAI Playground, а в интерфейсе ChatGPT появилось отдельное пространство Images.

Кодинг. OpenAI также выпустила GPT-5.2-Codex — версия GPT-5.2, натренированная для агентных, долгих задач по кодированию: большие рефакторы, миграции, надежная работа с терминалом и улучшенное поведение в среде Windows. Бенчмарки: 56.4% на SWE-Bench Pro против 55.6% у GPT-5.2 и 64.0% на Terminal-Bench 2.0 против 62.2% у GPT-5.2. GPT-5.2-Codex доступен на Codex-платформах для платных пользователей ChatGPT.

Другие релизы, которые стоит помнить

NVIDIA Nemotron 3 — опубликованы веса, датасеты и инструменты RL. Три размера: Nano 30B, Super 100B и Ultra 500B. Архитектура — гибрид MoE Mamba Transformer с комбинированными блоками последовательности, внимания и разрежённых экспертов.
Meta SAM Audio — унифицированная модель аудио-сепарации с мультимодальными подсказками: отдельные энкодеры для микса, текстовых подсказок, временнЫх отрезков и визуальных подсказок из видео или масок. Появилась и модель sam-audio-judge для оценки результатов.

Что это значит для архитектуры продуктов

Тренд. Мы видим явное смещение: вместо гонки за параметрами выигрывают оптимизация, дистилляция и специальные компоненты. Mistral делает глаз для пайплайнов дешёвым и структурированным, а Flash делает мозг дешевым и быстрым. Это открывает дорогу приложениям, которые состоят не из одной супермодели, а из цепочек дешёвых специализированных модулей — OCR, маршрутизатор, дешевое рассуждение, агрегация и мониторинг.

Практика на ближайшие 6-12 месяцев. На старте нового цикла выгодно прототипировать и даже деплоить на Flash-классе, особенно для агентных систем и высокочастотного inference. Но нужно предусмотреть возможность переключиться на обновлённый Pro, если Google выкатит апдейт, который нивелирует текущее преимущество Flash. Для документных пайплайнов стоит мигрировать с токенизации изображений на page-based OCR, это снизит затраты и упростит интеграцию с RAG.