Открыт ReVisual-R1 — мультимодальный ИИ с продуманным и точным мышлением

Разработчики представили ReVisual-R1 — новую мультимодальную модель с открытым кодом, способную на длинные и точные рассуждения, обработку изображений и текста.

Модель ReVisual-R1 основана на архитектуре с 7 миллиардами параметров и демонстрирует выдающиеся результаты в задачах мультимодального понимания. Она не только эффективно работает с текстом и изображениями, но и способна логически интерпретировать визуальные данные, обеспечивая «длинные и продуманные рассуждения», что ранее считалось сложной задачей для подобных моделей.

Авторы проекта подчёркивают, что особое внимание было уделено настройке визуального кодировщика и стратегии обучения. Использована архитектура CoLT5 в качестве визуального бэкенда, а также собственный подход к обучению визуального модуля, что позволило добиться высокой точности генерации и интерпретации.

«Мы стремились создать не просто мультимодальную модель, а систему, способную к глубинному пониманию контекста. ReVisual-R1 делает шаг в этом направлении», — отметили разработчики в презентации модели.

По сравнению с существующими аналогами, ReVisual-R1 достигает более высоких результатов на стандартных тестах (MMMU, MathVista, ChartQA), особенно в задачах, требующих продуманной интерпретации сложных визуальных и текстовых входных данных.

Модель распространяется с открытым исходным кодом, что делает её доступной для исследователей, энтузиастов и компаний, желающих интегрировать передовые ИИ-решения в свои продукты.

Эксперты в области ИИ отмечают, что появление таких моделей может серьёзно повлиять на развитие ИИ в науке, образовании и даже в автоматизации производственных процессов. Благодаря открытому коду, ReVisual-R1 может стать базой для нового поколения мультимодальных приложений.

19 июня 2025, 00:00

Новости индустрии ИИ

Открыт ReVisual-R1 — мультимодальный ИИ с продуманным и точным мышлением

Новости new