Проблема: существующие бенчмарки для data science часто ограничены или настроены только под узкие задачи, оставляя за пределами реальной практики множество вызовов. Перед командой стоит вопрос: как создать систему, которая не просто показывает высокий результат в лаборатории, а реально имитирует рабочий процесс аналитика?
Реальность: ученые и крупные корпорации подвергли сомнению эффективность существующих решений, обнаружив, что модели легко «бегут» по тестам, когда данные доступны, а вот при ограниченном доступе их результат неожиданно падает на 40-86%. Главная причина — неспособность моделей глубоко понимать или правильно применять знания, а не просто подбирать шаблоны. Именно эту проблему решает DSGym: стандартизировать и автоматизировать оценку решений через модульный подход, совмещая работу с реальными данными и задачами, построенными по всей индустрии.
Что такое DSGym и как это работает?
Основные объекты — задачи, агенты и окружение. Задачи делятся на анализ данных и предсказание. Аналитические требуют не просто выдать ответ, а пройти весь путь — загрузить данные, написать код и ответить. Прогнозирующие — моделировать, строить прогнозы и сдавать метрики. Внутри реализовано всё: файлы, подсчёт баллов, параметры и метаданные.
Обучение происходит через цикл CodeAct: агент анализирует проблему, пишет код, запускает его внутри окружения — обычно контейнера Docker, где есть все инструменты и данные. В результате агент выдаёт ответ, а система оценивает его по заранее заданным метрикам.
Расширение и развитие: биология, финансы и критические вызовы
В дополнение к базовому набору задач DSGym включает нейросети в биомедицине (DSBio), широкий спектр задач по генетике, анализу single-cell данных, spatial omics и человеческой генетике с реальными ответами из референсных записей. Также есть секции, посвящённые моделированию финансовых рынков и земных наук, — всё с разбивкой на три уровня сложности.
На сегодня в системе более 1000 задач (включая 972 аналитических и 114 предсказаний), охватывающих области: финансы, биоинформатика, геонауки и прочие критические индустрии. В тестах демонстрируют высокие показатели среди GPT-4 и его аналоги — до 90%, но при этом снижается эффективность на сложных кейсах, где ошибки связаны с неправильным пониманием предметной области или плохой настройкой библиотек.
Что показывает экспериментальный опыт?
На практике большинство моделей хорошо работают на легких задачах — свыше 80% с правильными ответами. Но с усложнением требования падают до 70% и ниже — особенно по биологической интерпретации. Проблема — модели часто ошибаются в доменных нюансах или неправильно используют инструменты, а не в слабости кода. Это показывает, что крупные языковые модели стоит учить на более реальных данных, а не только в игрушечных условиях.
Взгляд в будущее: evolution, а не революция
Индустрия движется от попыток быстро «протащить» RAG и похожие подходы к осмысленной платформе — где качество данных, метаданных и системный подход становятся ключом. В ближайшие 6–12 месяцев ожидается, что разработчики сосредоточатся на автоматизации подготовки данных, улучшении систем оценки и создании репозиториев синтетических данных для обучения. Те, кто начнёт выполнять работу правильно — на базе разрушенного мифа о легких решениях — сейчас уже выигрывают.
Планка поднимается: те, кто смогут интегрировать DSGym в свои рабочие процессы, получат конкурентное преимущество, а рынок оценит зрелых решений по автоматизации и качеству. Вопрос лишь в том, как быстро индустрия перестроится — а пока у нас есть платформа, которая помогает делать первые же шаги на этом пути.
