Исследователи ByteDance представили новую мультимодальную модель искусственного интеллекта VGR, которая способна значительно повысить точность и эффективность в задачах, требующих одновременного анализа изображений и текста.
Современные мультимодальные модели часто сталкиваются с проблемой: они чрезмерно полагаются на текстовую информацию, даже когда задача требует глубокого визуального анализа. Это приводит к снижению качества решений при работе с графиками, сложными изображениями или документами, где важны детали визуального восприятия.
VGR (Visual Grounded Reasoning) предлагает инновационный подход: модель не разделяет обработку изображения и текста, а динамически выделяет ключевые области на изображении в процессе рассуждения. Для обучения этой способности создан специальный датасет VGR-SFT, позволяющий системе самостоятельно выявлять визуальные подсказки без необходимости ручной разметки.
Ключевая технология VGR — селективное визуальное воспроизведение. Модель может «вспоминать» и повторно использовать важные фрагменты изображения в нужный момент, что реализовано с помощью визуального энкодера и специального пула памяти. Благодаря этому, VGR использует в среднем на 70% меньше визуальных токенов по сравнению с аналогами, сохраняя высокое разрешение и детализацию.
В тестах на популярных бенчмарках, таких как MMStar, AI2D и ChartQA, VGR показала прирост точности до 12,9 баллов по сравнению с базовой моделью, используя при этом только 30% объема визуальных данных. Эксперты отмечают, что такой подход открывает новые возможности для создания экономичных и точных систем искусственного интеллекта, способных к сложному визуально-языковому рассуждению.
Разработка VGR демонстрирует, что интеграция визуальных сигналов непосредственно в процесс рассуждения позволяет преодолеть ограничения текстоцентричных моделей и делает ИИ более адаптивным и универсальным инструментом для анализа сложных данных.
