Liquid AI анонсировала выпуск LFM2-2.6B-Exp — экспериментальной версии своей модели, обученной исключительно с помощью чистого обучения с подкреплением. В отличие от стандартных подходов, тут не используют дополнительные дообучения или дистилляцию: всё достигается через последовательное RL, что повышает способность модели следовать инструкциям, выполнять знания и решить математические задачи.
Модель LFM2-2.6B — вторая генерация разработок Liquid Foundation Models, ориентированная на мобильные решения. Она включает 30 слоёв, построена на 10 триллионах токенов, и уже показывает конкурентоспособные результаты в benchmark''ах — например, 82.41% на GSM8K и 79.56% на IFEval, превосходя более крупные модели.
Что нового в LFM2-2.6B-Exp
Данный чекпойнт оставляет архитектуру, токенизацию и профайл производства без изменений, но фокусируется только на изменении поведения через RL. На практике это означает, что модель сначала учится следовать инструкциям, затем расширяет возможности по работе с знаниями и математическими задачами — всё без дополнительной тонкой настройки или дистилляции.
Подход основан на существующей базе — модель уже настроена на приоритеты и обучена с учётом предпочтений. В результате, после этапа RL-модификации, модель становится не только лучше в стоимости вычислений, но и превосходит более крупные модели при выполнении сложных, ограниченных задач.
Что показывает индустрия сейчас
Это крупный поворот: всё больше разработчиков осознают, что архитектура — не главный фактор. Главное — как правильно обучать и регулировать модель, особенно в рамках небольших параметров. Команды, которые вкладываются именно в фокусировку на данных и RL, получают преимущество при конкуренции на ограниченных ресурсах.
Пока многие спешат выпускать крупные модели, опытные компании понимают: именно гибридные подходы и чистое обучение с подкреплением позволяют достигать максимум производительности при минимальных ресурсах. На горизонте ещё много вопросов, например, как масштабировать такие решения — будущее тут явно за оптимизированным, быстрой inference и инструментами автоматического размышления.
Что дальше
На ближайшие месяцы ожидается развитие концепции гибридного размышления и RL, а также появление новых моделей, сочетающих эффективность и качество. Те, кто уже научился правильно взаимодействовать с данными и применять RL, будут играть на опережение, а массовые решения станут проще и доступнее.
Все говорящие о будущем ИИ сегодня понимают: ключ к успеху — это не только архитектура, а именно стратегия обучения и тонкая настройка, что подтверждает и пример Liquid AI.
