Разработчики представили ReVisual-R1 — новую мультимодальную модель с открытым кодом, способную на длинные и точные рассуждения, обработку изображений и текста.
Модель ReVisual-R1 основана на архитектуре с 7 миллиардами параметров и демонстрирует выдающиеся результаты в задачах мультимодального понимания. Она не только эффективно работает с текстом и изображениями, но и способна логически интерпретировать визуальные данные, обеспечивая «длинные и продуманные рассуждения», что ранее считалось сложной задачей для подобных моделей.
Авторы проекта подчёркивают, что особое внимание было уделено настройке визуального кодировщика и стратегии обучения. Использована архитектура CoLT5 в качестве визуального бэкенда, а также собственный подход к обучению визуального модуля, что позволило добиться высокой точности генерации и интерпретации.
«Мы стремились создать не просто мультимодальную модель, а систему, способную к глубинному пониманию контекста. ReVisual-R1 делает шаг в этом направлении», — отметили разработчики в презентации модели.
По сравнению с существующими аналогами, ReVisual-R1 достигает более высоких результатов на стандартных тестах (MMMU, MathVista, ChartQA), особенно в задачах, требующих продуманной интерпретации сложных визуальных и текстовых входных данных.
Модель распространяется с открытым исходным кодом, что делает её доступной для исследователей, энтузиастов и компаний, желающих интегрировать передовые ИИ-решения в свои продукты.
Эксперты в области ИИ отмечают, что появление таких моделей может серьёзно повлиять на развитие ИИ в науке, образовании и даже в автоматизации производственных процессов. Благодаря открытому коду, ReVisual-R1 может стать базой для нового поколения мультимодальных приложений.
