Представьте, что модель может «видеть» в уме, не создавая ни одного пикселя — звучит фантастически, не так ли? Новая система Mirage предлагает именно это: вместо рендеринга полноценных изображений она вставляет компактные визуальные подсказки прямо в текстовый поток, сохраняя способность к сложному рассуждению и упрощая обучение моделей зрения и языка.
Обычно VLM (vision-language model) ограничена текстовым выводом, что сковывает её при решении задач, требующих мысленного воображения — будь то пространственные головоломки или шаг за шагом визуализируемые объяснения. Mirage же позволяет «думать глазами»: когда модель решает, что пора подключить визуальный компонент, она преобразует свои внутренние состояния в так называемые латентные токены и продолжает рассуждения в едином мультимодальном потоке без создания изображений.
Как это устроено
Разработка Mirage прошла в три этапа:
1. Синтез обучающих данных: для каждого текстового запроса создаётся вспомогательное изображение, наглядно поясняющее ключевые элементы задачи.
2. Двухфазное дообучение: сперва модель одновременно обучают генерировать текст и латентные токены, «привязывая» их к реальным визуальным признакам. Затем убирают жёсткое руководство и разрешают токенам самостоятельно служить опорой для дальнейшего текста.
3. Укрепление через reinforcement learning: дополнительная оптимизация позволяет модели вырабатывать более точные и связные рассуждения.
Преимущества и результаты
В экспериментах на ряде задач (включая VSP-бенчмарк для 7-миллиардной модели) Mirage значительно повысила точность по сравнению с обычными текстовыми решениями и унифицированными мультимодальными системами. Что особенно впечатляет, — это сохранённая лёгкость и скорость обучения без тяжёлого генеративного предобучения на изображениях.
Зачем это нужно
Mirage открывает путь к более гибким AI-ассистентам, способным «воображать» идеи, объяснять сложные схемы и решать нетривиальные задачи, не тратя ресурсы на отрисовку картинок. Представьте себе образовательные приложения, помогающие визуализировать геометрию прямо в чате, или роботов, планирующих движение по памяти без съёмки каждого кадра.
