MIT создал ChartNet для обучения ИИ анализу графиков

Исследователи MIT и MIT-IBM Computing Research Lab создали ChartNet — крупный обучающий набор данных для моделей, которые должны понимать графики, диаграммы и научные иллюстрации.

Сегодня такие изображения встречаются в финансовых отчетах, маркетинговой аналитике, исследованиях и презентациях. Но даже современные vision-language models, то есть модели, которые работают одновременно с картинками и текстом, часто ошибаются при чтении графиков.

Почему графики остаются сложной задачей для ИИ

Обычную фотографию модель может описать довольно уверенно: человек, машина, улица, объект на фоне. С графиками все сложнее. Здесь нужно не просто «увидеть» картинку, а связать подписи, оси, легенду, цвета, числовые значения и общий смысл данных.

Например, если модель анализирует отчет о продажах, ей нужно понять, какая линия относится к какому продукту, где рост, где спад и насколько сильным было изменение. Ошибка в такой задаче может привести к неверным бизнес-выводам.

Для компаний это особенно важно. Финансовые отделы, аналитики, исследователи и менеджеры постоянно работают с диаграммами. Если ИИ сможет надежно извлекать из них данные, он ускорит подготовку отчетов, поиск трендов и принятие решений.

ChartNet собрал больше миллиона разнообразных графиков

Главная проблема, по словам исследователей, заключалась в нехватке качественных данных для обучения. Многие существующие датасеты слишком маленькие, собраны из случайных изображений в интернете и не содержат всей информации, которая нужна модели для глубокого понимания.

ChartNet решает эту проблему масштабом и структурой. В него вошло более миллиона графиков, а к каждому примеру добавлены дополнительные данные: код, с помощью которого построена диаграмма, текстовое описание, таблица с числами и пары «вопрос-ответ».

Такой подход помогает модели не просто угадывать, что изображено, а сопоставлять визуальную часть с реальными числовыми данными. Это похоже на обучение с подсказками: ИИ видит картинку, читает описание, сверяется с таблицей и учится отвечать на вопросы по содержанию графика.

Синтетические данные стали ключом к масштабу

Чтобы создать такой объем данных, команда использовала синтетические данные. Это искусственно сгенерированные примеры, которые имитируют реальные данные и позволяют быстро расширять обучающую выборку.

Процесс состоял из двух этапов. Сначала система переводила уже существующие графики в программный код. Затем этот код автоматически изменялся: менялись тип диаграммы, значения, тема, цвета, подписи и другие параметры.

Из одного исходного графика можно было получить сотни новых вариантов. Благодаря этому исследователи собрали большой и разнообразный набор изображений, не ограничиваясь тем, что уже есть в интернете.

Качество проверяли автоматически и вручную

Большой датасет сам по себе не гарантирует пользы. Если графики будут грязными, неверными или бессмысленными, модель научится ошибаться быстрее. Поэтому в ChartNet добавили автоматическую проверку качества.

Система проверяла, запускается ли код, корректно ли строится изображение и совпадает ли визуальный результат с данными. Кроме того, часть примеров была размечена экспертами вручную. Это особенно полезно для более сложных типов диаграмм, где автоматической проверки может быть недостаточно.

Маленькие открытые модели обогнали крупные коммерческие

Исследователи протестировали ChartNet на серии моделей IBM Granite Vision и других открытых мультимодальных моделях разного размера. После обучения на новом датасете качество выросло во всех основных задачах.

Модели стали лучше восстанавливать структуру графика, извлекать числовые данные, кратко пересказывать содержание диаграмм и отвечать на вопросы по ним. Особенно важно, что небольшие open-source модели во многих тестах превзошли гораздо более крупные коммерческие системы.

Это может изменить баланс сил в индустрии. Если малым компаниям не нужно покупать дорогой доступ к закрытым моделям, они смогут строить собственные инструменты аналитики на базе открытых решений.

Почему это важно для рынка ИИ

Большая часть деловой информации хранится не в обычном тексте, а в таблицах, графиках, схемах и отчетах. Для ИИ это пока сложная зона: нужно понимать и изображение, и язык, и математику одновременно.

ChartNet показывает, что узкоспециализированные датасеты могут заметно улучшать модели без бесконечного наращивания их размера. Это важный тренд: вместо того чтобы делать ИИ все больше, исследователи учат его лучше работать с конкретными типами задач.

В перспективе такие технологии могут пригодиться в финансовой аналитике, научных публикациях, медицине, промышленности и образовании. Модель сможет быстро объяснить сложный график простым языком, найти аномалию или извлечь данные для дальнейшего анализа.

Что будет дальше

Команда MIT планирует расширять ChartNet и добавлять более сложные примеры. Исследователи также рассчитывают на обратную связь от научного сообщества, чтобы сделать датасет полезнее для разных сценариев.

Работа будет представлена на конференции IEEE Computer Vision and Pattern Recognition Conference. Финансирование проекта частично обеспечил MIT-IBM Computing Research Lab.

Для индустрии ИИ это еще один сигнал: будущее мультимодальных моделей зависит не только от мощности вычислений, но и от качества данных, на которых они учатся.

MIT представил ChartNet: датасет, который учит ИИ понимать графики