Amazon запускает Mitra — прорыв в работе с табличными данными
Табличные данные определяют решения в здравоохранении, финансах, e‑commerce и науке, но привычные инструменты вроде Random Forest и XGBoost “узко” заточены под каждый датасет и плохо переносят обучение на новые задачи.
Как Mitra учится без реальных примеров?
Вдохновлённая успехами языковых моделей, Mitra обходит ограничения классических методов: одна модель, одна предварительная тренировка — и она уже готова к разным задачам благодаря in‑context learning. Вместо настоящих таблиц Amazon создали синтетические датасеты, смешав разнообразные приоритеты — от деревьев решений до причинно‑следственных моделей. Смелая идея? Да, но она оправдала себя.
Почему синтетика оказалась сильнее?
Команда заметила: качество синтетических приоритетов критично. Они должны демонстрировать приличную точность на реальных задачах, быть разнообразными, чтобы избежать переобучения, и предлагать уникальные закономерности. Такая смесь позволяет Mitra “видеть” то, что не встречается ни в одном отдельном датасете.
Результаты и будущее табличного ИИ
При проверке Mitra обошла лучшие табличные “бенчмарки” и модели уровня CatBoost, TabPFN и AutoGluon, показав более ровные границы решений на синтетических примерах и уверенную работу на классификации и регрессии. Открытый исходный код в AutoGluon 1.4 приглашает исследователей испытать новую основу для табличных задач.
