В индустрии больших языковых моделей (LLM) начинаются перемены: от громких заявлений и мечтаний — к реальным решениям для массового применения. Самое горячее сейчас — это Gemini 3.1 Flash-Lite от Google, которую позиционируют как наиболее бюджетное решение в серии Gemini 3, созданное специально для масштабных задач. Эта модель обещает низкую стоимость токенов при высокой скорости обработки и возможностью динамически менять глубину рассуждений через новый механизм Thinking Levels.
Речь идет о модели, которая уже начала конкурировать с крупными игроками — она в два с половиной раза быстрее первой реакции и на 45% бодрее по скорости вывода текста. При этом показатели качества, такие как reasoning по метрике GPQA Diamond, достигают 86.9%, что сопоставимо с более мощными системами, но без огромных расходов. Стоимость входных данных — около 25 центов за миллион токенов, а выходных — около 1.50 — тоже очень конкурентно.
Эта модель отлично подходит для структуры кода, генерации JSON, работы с долгими контекстами и для тех задач, где важна логика и точность. Она легко интегрируется с API, поддерживает мультимодальные входы — текст, изображение, видео — и работает с окнами до 128 тысяч токенов. В целом, проторена дорожка к новому уровню масштабируемости ИИ. Ожидается, что в ближайшее время появятся новые версии и расширению поддержки на платформах с активным сообществом, таких как Twitter, Reddit и Telegram.
