Mirage: новый подход к мультимодальному рассуждению без генерации изображений

Представьте, что модель может «видеть» в уме, не создавая ни одного пикселя — звучит фантастически, не так ли? Новая система Mirage предлагает именно это: вместо рендеринга полноценных изображений она вставляет компактные визуальные подсказки прямо в текстовый поток, сохраняя способность к сложному рассуждению и упрощая обучение моделей зрения и языка.

Обычно VLM (vision-language model) ограничена текстовым выводом, что сковывает её при решении задач, требующих мысленного воображения — будь то пространственные головоломки или шаг за шагом визуализируемые объяснения. Mirage же позволяет «думать глазами»: когда модель решает, что пора подключить визуальный компонент, она преобразует свои внутренние состояния в так называемые латентные токены и продолжает рассуждения в едином мультимодальном потоке без создания изображений.

Как это устроено

Разработка Mirage прошла в три этапа:

1. Синтез обучающих данных: для каждого текстового запроса создаётся вспомогательное изображение, наглядно поясняющее ключевые элементы задачи.

2. Двухфазное дообучение: сперва модель одновременно обучают генерировать текст и латентные токены, «привязывая» их к реальным визуальным признакам. Затем убирают жёсткое руководство и разрешают токенам самостоятельно служить опорой для дальнейшего текста.

3. Укрепление через reinforcement learning: дополнительная оптимизация позволяет модели вырабатывать более точные и связные рассуждения.

Преимущества и результаты

В экспериментах на ряде задач (включая VSP-бенчмарк для 7-миллиардной модели) Mirage значительно повысила точность по сравнению с обычными текстовыми решениями и унифицированными мультимодальными системами. Что особенно впечатляет, — это сохранённая лёгкость и скорость обучения без тяжёлого генеративного предобучения на изображениях.

Зачем это нужно

Mirage открывает путь к более гибким AI-ассистентам, способным «воображать» идеи, объяснять сложные схемы и решать нетривиальные задачи, не тратя ресурсы на отрисовку картинок. Представьте себе образовательные приложения, помогающие визуализировать геометрию прямо в чате, или роботов, планирующих движение по памяти без съёмки каждого кадра.

22 июля 2025, 13:45

Технологии и разработки

Mirage: новый подход к мультимодальному рассуждению без генерации изображений

Как это устроено

Преимущества и результаты

Зачем это нужно

Связанные ИИ

Новости new