IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Mirage: мысленное воображение для VLM без рендеринга изображений

    Mirage: новый подход к мультимодальному рассуждению без генерации изображений

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
     Mirage: новый подход к мультимодальному рассуждению без генерации изображений

    Представьте, что модель может «видеть» в уме, не создавая ни одного пикселя — звучит фантастически, не так ли? Новая система Mirage предлагает именно это: вместо рендеринга полноценных изображений она вставляет компактные визуальные подсказки прямо в текстовый поток, сохраняя способность к сложному рассуждению и упрощая обучение моделей зрения и языка.

    Обычно VLM (vision-language model) ограничена текстовым выводом, что сковывает её при решении задач, требующих мысленного воображения — будь то пространственные головоломки или шаг за шагом визуализируемые объяснения. Mirage же позволяет «думать глазами»: когда модель решает, что пора подключить визуальный компонент, она преобразует свои внутренние состояния в так называемые латентные токены и продолжает рассуждения в едином мультимодальном потоке без создания изображений.

    Как это устроено

    Разработка Mirage прошла в три этапа:

    1. Синтез обучающих данных: для каждого текстового запроса создаётся вспомогательное изображение, наглядно поясняющее ключевые элементы задачи.

    2. Двухфазное дообучение: сперва модель одновременно обучают генерировать текст и латентные токены, «привязывая» их к реальным визуальным признакам. Затем убирают жёсткое руководство и разрешают токенам самостоятельно служить опорой для дальнейшего текста.

    3. Укрепление через reinforcement learning: дополнительная оптимизация позволяет модели вырабатывать более точные и связные рассуждения.

    Преимущества и результаты

    В экспериментах на ряде задач (включая VSP-бенчмарк для 7-миллиардной модели) Mirage значительно повысила точность по сравнению с обычными текстовыми решениями и унифицированными мультимодальными системами. Что особенно впечатляет, — это сохранённая лёгкость и скорость обучения без тяжёлого генеративного предобучения на изображениях.

    Зачем это нужно

    Mirage открывает путь к более гибким AI-ассистентам, способным «воображать» идеи, объяснять сложные схемы и решать нетривиальные задачи, не тратя ресурсы на отрисовку картинок. Представьте себе образовательные приложения, помогающие визуализировать геометрию прямо в чате, или роботов, планирующих движение по памяти без съёмки каждого кадра.

    22 июля 2025, 13:45
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026