Liquid AI выпустила LFM2-2.6B-Exp — экспериментальную версию своей модели, которая тренируется с помощью чистого обучения с подкреплением поверх стандартного стека LFM2. Эта новинка направлена на улучшение следования инструкциям и решения сложных задач, оставаясь компактной и оптимизированной для edge-устройств.
Индустрия уже давно ищет оптимальный баланс между эффективностью и способностями моделей. В чем же тут суть? Эта модель — часть второго поколения Liquid Foundation Models, созданная для работы на мобильных и периферийных гаджетах. Архитектура гибридная — сочетает короткие сверточные блоки LIV и блоки внимания с группированными запросами, управляемые через мультипликативные ворота. Вариаций модели четыре: 350М, 700М, 1,2 миллиарда и 2,6 миллиарда параметров. И все они работают с длинной контекста в 32 тысячи токенов и используют размер словаря в 65 тысяч элементов.
При этом качество уже сейчас впечатляет: модель показывает 82.41% точности на GSM8K и 79.56% на IFEval — лучше, чем более крупные модели вроде Llama 3.2 3B. Отлично, что новая версия повторяет архитектуру, размер окна и профиль — но добавляет этап обучения с подкреплением, чтобы сделать модель ещё более умной и послушной.
В чем внутренняя кухня? Основа — это базовая модель LFM2-6.2B, прошедшая долгий путь супервизорного дообучения и оптимизации на различных задачах. Но самое важное — в последовательной постановке обучения с подкреплением, ориентированной на инструкцию, знания, математику и использование инструментов. В итоге модель отлично справляется даже с особым бенчмарком IFBench, превосходя более крупные модели, как DeepSeek R1-0528.
Архитектура включает 10 двойных сверточных блоков LIV и 6 блоков внимания с группированными запросами, что ускоряет работу и снижает затраты для GPU. Обучались модель на данных, где примерно 75% — английский, 20% — мульти-языковые — арабский, китайский, французский, немецкий, японский, корейский и испанский — и 5% — код. Поддержка шаблонов ChatML и нативных токенов инструментов делает возможным структурирование диалогов и вызов внешних сервисов.
Особенность — динамическое гибридное рассуждение через специальные токены ''think'', сохраняющееся после обучения. То есть модель умеет комбинировать знания и инструменты, оставаясь гибкой и способной к мультиязыковым задачам.
В целом, LFM2-2.6B-Exp показывает, что добавление этапа обучения с подкреплением — это ключ к созданию модели, сочетающей компактность, универсальность и высокие показатели. И всё это — при сохранении эффективности и поддержки множества форматов deployment. В будущем ожидается, что такие подходы станут стандартом для мобильных AI, а модели научатся лучше использовать инструменты и обучаться на реальных данных без потери гибкости.
