Лид. На этой неделе индустрия получила очередной поворот: Google представил Gemini 3 Flash — модель, которая обещает Pro-класс рассуждений, но с гораздо меньшей задержкой и ценой. Одновременно Mistral выпустил OCR 3 для массового парсинга сложных документов, а OpenAI обновила инструменты для изображений и кодинга. Это не просто новые релизы — это сигнал о смене правил игры.
Контраст. Два года индустрия жила в режиме гонки параметров: больше параметров = лучше. Сейчас видно другое: алгоритмы и улучшения RL дают выигрыш по скорости и цене, и бюджетные модели становятся жизнеспособной альтернативой флагманам. Для инженеров это момент арбитража: прототипируйте и деплойте на Flash-классе сегодня, но держите план на случай обновления Pro.
Gemini 3 Flash: что именно произошло
Факт. Google называет Gemini 3 Flash фронтирной моделью, оптимизированной под скорость. Официальные бенчмарки: 78% на SWE-bench Verified по задачам кодинга и 90.4% на GPQA Diamond по мультимодальному рассуждению. Google заявляет, что Flash примерно в 3 раза быстрее и около 4 раз дешевле, чем Gemini 3 Pro; цена указана как 0.50 доллара за миллион входных токенов. Flash уже стал моделью по умолчанию в режиме ''Thinking'' в приложении Gemini и постепенно внедряется в AI Mode для Search.
Доступ. Разработчики получат доступ через Gemini API в Google AI Studio, через Gemini CLI, Google Antigravity, а для предприятий через Vertex AI и Gemini Enterprise.
Почему это сработало. По статье, преимущество Flash частично объясняется улучшенной дистилляцией и новыми RL-техниками, которые появились после cutoff для Pro. Google намекнул, что Pro скоро получит обновление, так что арбитраж может быть временным.
Mistral OCR 3: глаз для RAG-пайплайнов
Факт. Mistral OCR 3 — специализированная OCR-модель для извлечения смешанного текста и изображений из PDF и сложных макетов, с сохранением структуры. В релизе указана общая победа 74% против OCR 2 на формах, сканах, сложных таблицах и почерке. OCR 3 возвращает структурированный Markdown с HTML-таблицами и координатами изображений, есть API, принимающий URL PDF и возвращающий распарсенный результат.
Ценообразование и парадокс. В публичных обсуждениях встречается противоречивая информация: в рассылке упоминалось 1 доллар за 1000 страниц с пакетными скидками, а в карточке модели указано 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурных аннотаций. Тем не менее платная модель по страницам делает OCR 3 экономичнее для высоких объёмов документов, чем токенизация изображений целых PDF через LLM.
OpenAI: изображения и Codex-адаптации
Факт. OpenAI обновила ChatGPT Images и выпустила модель GPT Image 1.5 для разработчиков. Генерация стала до 4 раз быстрее, улучшилось следование инструкциям и возможности редактирования изображений. Модель доступна в OpenAI Playground, а в интерфейсе ChatGPT появилось отдельное пространство Images.
Кодинг. OpenAI также выпустила GPT-5.2-Codex — версия GPT-5.2, натренированная для агентных, долгих задач по кодированию: большие рефакторы, миграции, надежная работа с терминалом и улучшенное поведение в среде Windows. Бенчмарки: 56.4% на SWE-Bench Pro против 55.6% у GPT-5.2 и 64.0% на Terminal-Bench 2.0 против 62.2% у GPT-5.2. GPT-5.2-Codex доступен на Codex-платформах для платных пользователей ChatGPT.
Другие релизы, которые стоит помнить
- NVIDIA Nemotron 3 — опубликованы веса, датасеты и инструменты RL. Три размера: Nano 30B, Super 100B и Ultra 500B. Архитектура — гибрид MoE Mamba Transformer с комбинированными блоками последовательности, внимания и разрежённых экспертов.
- Meta SAM Audio — унифицированная модель аудио-сепарации с мультимодальными подсказками: отдельные энкодеры для микса, текстовых подсказок, временнЫх отрезков и визуальных подсказок из видео или масок. Появилась и модель sam-audio-judge для оценки результатов.
Что это значит для архитектуры продуктов
Тренд. Мы видим явное смещение: вместо гонки за параметрами выигрывают оптимизация, дистилляция и специальные компоненты. Mistral делает глаз для пайплайнов дешёвым и структурированным, а Flash делает мозг дешевым и быстрым. Это открывает дорогу приложениям, которые состоят не из одной супермодели, а из цепочек дешёвых специализированных модулей — OCR, маршрутизатор, дешевое рассуждение, агрегация и мониторинг.
Практика на ближайшие 6-12 месяцев. На старте нового цикла выгодно прототипировать и даже деплоить на Flash-классе, особенно для агентных систем и высокочастотного inference. Но нужно предусмотреть возможность переключиться на обновлённый Pro, если Google выкатит апдейт, который нивелирует текущее преимущество Flash. Для документных пайплайнов стоит мигрировать с токенизации изображений на page-based OCR, это снизит затраты и упростит интеграцию с RAG.
Рекомендации разработчикам
- Прототипируйте с Gemini 3 Flash для latency- или cost-sensitive agentic loop''ов, но сохраняйте абстракцию провайдера, чтобы быстро сменить backend.
- Вложитесь в обработку данных и структуру документов — Mistral OCR 3 выгоден при больших объёмах, но важно проверять качество аннотаций и ценообразование.
- Автоматизируйте тесты на производительность и точность — арбитраж между Flash и Pro может быть временным.
- Думайте модульно: дешёвые, надежные компоненты в фоне скорее принесут доход, чем гигантская модель в демо.
Заключение. Мы не видим революции в одну ночь, но наблюдаем эволюцию: рынок переходит от железобетонной веры в масштабирование к прагматичной сборке из дешёвых, быстрых и специализированных блоков. Те команды, которые начнут соединять глаз, мозг и маршрутизаторы сегодня, будут лидерами в 2026 году. И да — пока идёт арбитраж, у инженеров есть реальный шанс снизить стоимость и задержку без потери качества.
Праздничная заметка. Это последний номер перед Рождеством: Towards AI объявила скидки на курсы и запуск курса Agent Engineering в начале следующего года. Кто успеет записаться до Jan 2, тот получит 10-часовой LLM Primer в подарок.
