Исследователи представили новую методику дообучения языковой модели LLaMA 3, позволяющую существенно улучшить её способности к рассуждению без изменения архитектуры.
Команда специалистов из нескольких исследовательских институтов разработала технику пост-тренировочной адаптации под названием ASTRO (Alignment Scaffolding for Text Reasoning Optimization), которая позволила добиться значительного повышения качества работы модели LLaMA 3-8B на стандартных бенчмарках.
Метод ASTRO направлен на улучшение логических и аналитических способностей модели, при этом не требует вмешательства в основную архитектуру или проведение дорогостоящего предобучения. Вместо этого применяются дополнительные этапы инструкционного дообучения, специально ориентированные на улучшение reasoning-задач.
По данным разработчиков, использование ASTRO привело к увеличению производительности модели от 16% до 20% на популярных тестах, включая MATH, GPQA, ProofWriter и другие. Особенно заметны улучшения в задачах, связанных с математическими доказательствами и научным анализом.
Исследователи подчёркивают, что ключевым элементом ASTRO является структурирование инструкций, стимулирующее пошаговое логическое мышление. Модель обучается объяснять своё мышление и давать обоснования, а не просто выдавать результат.
Авторы подхода отмечают, что такой формат посттренировочного обучения может стать важным инструментом для повышения интеллектуальных возможностей уже существующих языковых моделей, особенно при ограничениях на вычислительные ресурсы или при работе с открытыми моделями, как LLaMA 3.
В перспективе подобные методы могут применяться для адаптации моделей к специализированным задачам в научной, образовательной или инженерной среде без необходимости масштабного переобучения.
