MIT создал ChartNet для обучения ИИ пониманию графиков

Исследователи из MIT и MIT-IBM Computing Research Lab представили ChartNet — крупный обучающий набор данных для моделей, которые должны понимать графики, диаграммы и научные иллюстрации. В датасет вошло более миллиона разнообразных изображений с дополнительной разметкой: кодом построения графика, таблицами с числами, текстовыми описаниями и вопросами с ответами.

Главная цель проекта — научить vision-language models, или зрительно-языковые модели, работать не только с картинкой и текстом, но и с числовыми данными. Такие модели уже умеют описывать изображения и отвечать на вопросы, но графики остаются для них сложной задачей: нужно одновременно распознать визуальные элементы, понять подписи, сопоставить оси и корректно извлечь значения.

Почему графики до сих пор сложны для ИИ

Для человека линейный график или столбчатая диаграмма часто читаются почти мгновенно. Мы видим рост, падение, аномалию или сравнение категорий без долгих вычислений. Для ИИ это намного труднее: модель должна понять тип графика, распознать шкалы, легенду, подписи, цвета и сами числовые значения.

Проблема особенно заметна в бизнесе и науке. Финансовые отчеты, рыночные обзоры, исследования и презентации часто строятся вокруг графиков. Если ИИ неверно перескажет динамику выручки, перепутает значения на оси или пропустит важный тренд, последующие решения могут быть ошибочными.

По словам авторов работы, узким местом долго оставались именно данные для обучения. Многие существующие наборы содержат ограниченное число изображений из интернета и не дают модели достаточно контекста о том, какие числа стоят за картинкой.

Что такое ChartNet

ChartNet — это не просто коллекция изображений. Каждый пример включает несколько слоев информации, которые помогают модели связать визуальную форму графика с реальными данными. В наборе есть изображение диаграммы, таблица с числовыми значениями, текстовое описание, программный код для генерации графика и пары вопрос-ответ.

Такой подход важен для обучения мультимодальных систем. Мультимодальная модель — это ИИ, который работает сразу с несколькими типами данных, например с изображениями, текстом и числами. В случае графиков ей нужно не просто «увидеть» картинку, а понять, что конкретная линия означает рост продаж, падение температуры или изменение научного показателя.

Авторы называют ChartNet универсальным ресурсом для задач понимания графиков. Он подходит для извлечения данных, краткого пересказа диаграмм, восстановления структуры графика и ответов на вопросы по изображению.

Как ученые получили миллион графиков

Чтобы собрать такой масштабный набор, команда использовала синтетические данные. Это данные, созданные алгоритмами, а не напрямую собранные из реального мира. В данном случае система брала существующий график как основу, переводила его в код, а затем автоматически создавала множество вариантов.

Меняться могли тип диаграммы, значения, тема, цвета, подписи и другие визуальные параметры. Из одного исходного примера можно было получить сотни новых графиков. Благодаря этому исследователям удалось создать более миллиона изображений с большим разнообразием форматов и сценариев.

При этом команда не ограничилась массовой генерацией. В ChartNet встроили автоматическую проверку качества: система убеждалась, что код запускается, изображение корректно отрисовано, а данные представлены осмысленно. Также в набор вошли примеры, размеченные людьми-экспертами, чтобы добавить более надежные и сложные случаи.

Малые модели смогли обойти крупные коммерческие системы

Исследователи протестировали ChartNet на открытых моделях, включая серию IBM Granite Vision, а также на других моделях разных размеров. После обучения на новом датасете точность выросла во всех ключевых задачах: извлечении данных из графика, ответах на вопросы, суммаризации и восстановлении структуры диаграммы.

Особенно важный результат: небольшие открытые модели после обучения на ChartNet стабильно показывали результаты лучше, чем гораздо более крупные коммерческие модели. Это означает, что качественные данные могут быть не менее важны, чем размер модели и вычислительные ресурсы.

Для индустрии ИИ это сильный сигнал. Если небольшие open-source модели можно дообучить так, чтобы они уверенно работали с графиками, доступ к аналитическим инструментам станет дешевле. Малые компании, исследовательские группы и стартапы смогут использовать ИИ для анализа отчетов без огромных бюджетов на закрытые платформы.

Где это может пригодиться

ChartNet может ускорить развитие ИИ-инструментов для финансов, консалтинга, науки, медицины, образования и корпоративной аналитики. Например, модель сможет прочитать квартальный отчет, найти ключевой график, объяснить тренд простыми словами и извлечь таблицу значений для дальнейшего анализа.

В научной среде такие модели могут помогать разбирать иллюстрации из статей, сравнивать результаты экспериментов и находить важные зависимости. Это не заменяет эксперта, но снимает часть рутинной работы и делает сложные материалы доступнее.

Почему это важно для рынка ИИ

Большие языковые модели все чаще используют в рабочих процессах, где ошибка в интерпретации данных стоит дорого. Но реальный бизнес живет не только в текстовых документах: отчеты, презентации и исследования часто состоят из таблиц, графиков и визуальных сравнений.

ChartNet показывает, что следующий этап развития мультимодального ИИ связан с более точным пониманием структурированной визуальной информации. Моделям недостаточно красиво описывать картинку. Им нужно надежно связывать изображение с числами, логикой и контекстом.

Команда MIT планирует расширять датасет и добавлять более сложные примеры. Работа будет представлена на конференции IEEE Computer Vision and Pattern Recognition Conference, одной из ключевых площадок в области компьютерного зрения.

MIT создал ChartNet: датасет, который учит ИИ понимать графики