Исследователи из MIT и лаборатории MIT-IBM Computing Research Lab представили ChartNet — большой обучающий набор данных для ИИ-моделей, которые должны понимать графики, диаграммы и таблицы с визуальными данными.
Цель проекта простая: научить современные vision-language модели не просто «видеть» картинку, а извлекать из нее числа, тренды и смысл. Это важно для бизнеса, науки и финансов, где решения часто принимаются на основе графиков в отчетах и презентациях.
Почему графики до сих пор сложны для ИИ
Многие генеративные модели уже хорошо работают с текстом и обычными изображениями. Но график — это более сложный формат: в нем одновременно есть линии, столбцы, подписи, шкалы, цвета, числа и контекст.
Vision-language model, или VLM, — это модель, которая соединяет компьютерное зрение и обработку текста. Она может смотреть на изображение и отвечать на вопросы о нем. Но если на картинке не кот или улица, а сложная диаграмма продаж, задача становится намного труднее.
Например, модель должна понять, где находится ось времени, какие значения соответствуют каждой точке, что означает легенда и как описать изменение показателя. Ошибка в такой задаче может привести к неверному выводу о рынке, научном эксперименте или финансовом состоянии компании.
ChartNet: миллион диаграмм для обучения моделей
Чтобы закрыть этот пробел, команда MIT создала ChartNet — датасет с более чем миллионом разнообразных графиков. В него входят не только изображения диаграмм, но и дополнительные данные, которые помогают модели учиться глубже.
Каждый пример в ChartNet содержит несколько слоев информации: картинку графика, код, с помощью которого он был создан, текстовое описание, таблицу с числовыми данными и пары вопросов-ответов. Благодаря этому ИИ может сопоставлять визуальные элементы с реальными числами и словами.
Проще говоря, модель видит не просто изображение. Она получает «разбор» графика и учится понимать, как внешний вид связан с данными внутри.
Как MIT создал такой большой набор данных
Исследователи использовали синтетические данные. Это данные, которые создаются алгоритмами, но имитируют реальные примеры. Такой подход позволяет быстро получить много качественных вариантов без ручной разметки каждого изображения.
Сначала система переводит существующий график в код. Затем этот код многократно изменяется: меняется тип диаграммы, тема, цветовая схема, значения, подписи и другие параметры. Из одного исходного графика можно получить сотни новых вариантов.
При этом команда добавила автоматическую проверку качества. Система следит, чтобы код запускался корректно, графики выглядели чисто, а данные на изображении соответствовали тому, что записано в таблице.
Маленькие открытые модели обогнали крупные коммерческие
ChartNet протестировали на нескольких открытых моделях, включая серию IBM Granite Vision. Результат оказался важным для всей индустрии: после обучения на новом датасете небольшие open-source модели во многих задачах показали себя лучше, чем гораздо более крупные коммерческие системы.
Модели стали точнее восстанавливать структуру графика, извлекать числовые данные, кратко пересказывать смысл диаграммы и отвечать на вопросы по изображению. Это особенно важно для компаний, которые не могут позволить себе дорогие закрытые ИИ-сервисы.
Если открытые модели будут лучше понимать графики, малый бизнес, исследовательские группы и стартапы получат доступ к инструментам анализа, которые раньше требовали больших бюджетов и вычислительных ресурсов.
Где это может пригодиться
Главная область применения — анализ бизнес-трендов. Финансовые отчеты, рыночные обзоры и управленческие презентации почти всегда содержат графики. ИИ, который умеет надежно их читать, сможет быстрее готовить выводы, находить аномалии и помогать аналитикам.
В науке ChartNet может улучшить работу моделей с фигурами из исследований: графиками экспериментов, сравнительными диаграммами и визуализациями результатов. Это ускорит поиск закономерностей и упростит работу с большими массивами публикаций.
- Финансы: автоматическое чтение отчетов, динамики рынков и инвестиционных графиков.
- Наука: интерпретация графиков из статей и лабораторных данных.
- Бизнес-аналитика: быстрые сводки по продажам, спросу и операционным метрикам.
- Образование: объяснение диаграмм студентам простым языком.
Почему это важно для развития ИИ
Работа MIT показывает, что прогресс в ИИ зависит не только от размера модели. Иногда решающим фактором становится качество обучающих данных. Если модель видит много хорошо подготовленных примеров, она может стать умнее даже без огромного количества параметров.
ChartNet также усиливает тренд на более доступный ИИ. Вместо того чтобы полагаться только на закрытые гигантские модели, разработчики смогут дообучать компактные открытые системы под конкретные задачи.
В будущем исследователи планируют расширять датасет и добавлять более сложные типы графиков. Если сообщество подключится к развитию ChartNet, инструменты анализа визуальных данных могут стать заметно точнее и доступнее.
Исследование будет представлено на конференции IEEE Computer Vision and Pattern Recognition Conference. Финансирование проекта частично обеспечила лаборатория MIT-IBM Computing Research Lab.
