Исследователи из MIT и MIT-IBM Computing Research Lab представили ChartNet — крупный обучающий набор данных для моделей, которые должны понимать графики, диаграммы и научные иллюстрации. По словам команды, такой ресурс нужен потому, что даже сильные современные ИИ-системы часто ошибаются, когда им приходится одновременно видеть картинку, читать подписи и работать с числами.
ChartNet включает более миллиона разнообразных изображений графиков. Но главное не только в масштабе: к каждому примеру добавлены данные, которые помогают модели понять, что именно изображено, какие числа лежат в основе диаграммы и как об этом можно рассказать человеческим языком.
Почему графики остаются сложной задачей для ИИ
Визуально-языковые модели, или VLM, умеют работать сразу с изображениями и текстом. Например, они могут описывать фотографию, отвечать на вопросы по скриншоту или анализировать документ. Но графики устроены сложнее обычных картинок.
Чтобы правильно прочитать диаграмму, модели нужно распознать тип графика, понять оси, подписи, легенду, цвета, числовые значения и связь между точками данных. Ошибка в одном элементе может привести к неверному выводу: например, ИИ может перепутать рост с падением или неправильно извлечь значение из столбца.
Для бизнеса это не мелкая проблема. Финансовые отчеты, рыночные обзоры, научные статьи и презентации часто строятся вокруг графиков. Если ИИ неверно интерпретирует такие данные, автоматическая аналитика становится рискованной.
Что такое ChartNet
ChartNet — это мультимодальный датасет, то есть набор данных, где один объект описан сразу в нескольких формах. В случае ChartNet это изображение графика, код для его создания, текстовое описание, таблица с числовыми данными и пары вопросов-ответов.
Такой подход помогает модели не просто «увидеть картинку», а связать визуальные элементы с реальными числами и смыслом. Например, если на линейном графике показан рост продаж, модель учится сопоставлять линию, подписи осей, таблицу значений и текстовое объяснение тренда.
По замыслу авторов, ChartNet должен стать универсальной базой для обучения ИИ работе с диаграммами. Он подходит для задач извлечения данных, восстановления графиков, краткого пересказа визуальной информации и ответов на вопросы по изображению.
Как MIT получил больше миллиона графиков
Команда использовала синтетические данные. Это данные, созданные алгоритмами, а не собранные напрямую из реального мира. Такой метод позволяет быстро генерировать много примеров и контролировать их качество.
Процесс состоял из двух этапов. Сначала система переводила существующие изображения графиков в код. Затем этот код многократно изменялся: менялись тип диаграммы, числа, тема, цвета, оформление и другие параметры.
Так из одного исходного графика можно было получить сотни вариантов. Благодаря этому исследователи собрали большой и разнообразный набор, который показывает моделям разные способы визуализации данных.
Качество проверяли автоматически и вручную
Одна из проблем синтетических данных — риск получить красивые, но бессмысленные примеры. Поэтому авторы ChartNet добавили автоматическую проверку качества. Система смотрела, запускается ли код, корректно ли отрисован график и нет ли визуальных ошибок.
Кроме того, часть данных была размечена экспертами вручную. Это важно для более сложных или нестандартных типов диаграмм, где автоматическая генерация может не дать нужной надежности.
Такие проверенные примеры можно использовать для дообучения моделей под конкретные задачи. Например, компания может взять открытую модель и адаптировать ее к своим финансовым отчетам или внутренней аналитике.
Маленькие открытые модели обогнали крупные коммерческие
Исследователи протестировали ChartNet на серии моделей IBM Granite Vision и других открытых VLM разного размера. После обучения на новом датасете модели стали лучше справляться с несколькими задачами: извлекать данные из графиков, пересказывать их смысл, отвечать на вопросы и восстанавливать структуру диаграмм.
Самый заметный результат: небольшие открытые модели, обученные с помощью ChartNet, в ряде тестов стабильно обходили намного более крупные коммерческие системы. Это важный сигнал для рынка: качество ИИ зависит не только от размера модели, но и от того, насколько хорошо подготовлены обучающие данные.
Для небольших компаний это может снизить барьер входа. Вместо дорогого доступа к закрытым системам они смогут использовать открытые модели и дообучать их на специализированных данных.
Почему это важно для индустрии ИИ
Сегодня многие компании хотят автоматизировать аналитику: быстро читать отчеты, находить тренды, объяснять показатели и готовить выводы для менеджеров. Но без надежного понимания графиков ИИ остается ограниченным помощником.
ChartNet закрывает один из слабых участков современных мультимодальных моделей. Он показывает, что для практического ИИ нужны не только новые архитектуры, но и качественные обучающие наборы, где визуальная, текстовая и числовая информация связаны между собой.
Это особенно важно для финансов, науки, промышленности, маркетинга и медицины — сфер, где решения часто принимаются на основе визуальных данных. Если модели научатся точнее читать диаграммы, они смогут помогать не только с пересказом документов, но и с полноценным анализом.
Что будет дальше
Авторы проекта планируют расширять ChartNet и добавлять более сложные типы данных. Также они рассчитывают на обратную связь от исследовательского сообщества, чтобы улучшать датасет и проверять его на новых задачах.
Работа будет представлена на конференции IEEE Computer Vision and Pattern Recognition Conference. Исследование частично профинансировано MIT-IBM Computing Research Lab.
Для рынка ИИ это еще один шаг к более полезным мультимодальным системам. Модели, которые понимают не только текст и фотографии, но и числовую визуализацию, могут стать основой для нового поколения аналитических инструментов.
