Робототехника долгое время сталкивалась с вызовами универсальности и эффективности. На фоне многообещающих технологий, таких как RAG, оказалось, что реальные задачи требуют гораздо большего — качественной обработки глубинной информации и широкого спектра действий. Пока большинство проектов либо застревали на этапе прототипов, либо теряли эффективность в реальных условиях, — рассказывают эксперты. Парадокс: модели обещали превзойти человека, а на практике часто терпели неудачи из-за нехватки данных и ошибочной архитектуры.
Ant Group выпустила LingBot-VLA — модель, которая объединяет визуальный и языковой модули с новым механизмом обучения. Модель обучена на 20 000 часах телематических данных с 9 конфигураций двойных роботов и прошла масштабное тестирование на сложном GM-100 — наборе из 100 задач, которые требуют точных манипуляций и высокой универсальности.
Проблема данных и особенности обучения
- Ранее считалось, что архитектура решает всё — но оказалось, что без качественных данных результаты не нарастут.
- Ant Group применяет метод Flow Matching — обучение через транспортировку шума к реальным траекториям, что обеспечивает плавное и последовательное управление.
- В наборе данных есть множество уникальных действий — примерно 50% из них не входят в ТОП-100 по частоте, что позволяет модели учиться на широком спектре сценариев.
Инновации в архитектуре и восприятии
- LingBot-VLA использует блоковое причинное внимание — чтобы исключить утечки информации из будущего и улучшить качество планирования.
- Главное нововведение — модуль LingBot-Depth, обученный по masked depth modeling, который формирует плотные 3D-карты даже при плохих данных или occlusion.
- Комплексный подход показал лучшие результаты в реальном мире: успешно выполняет 17,3% задач по успеху на GM-100 и достигает рейтингов, превосходящих конкурентов.
Переход в симуляцию и масштабируемость
- В RoboTwin 2.0 модель показывает 88,56% успеха — значительно превышая предыдущие методы.
- Значительный вывод — модель хорошо переносит обучение с меньшим количеством демонстраций и при этом обеспечивает высокую эффективность.
- Оптимизация обучения с помощью гибридного шардирования, смешанной точности и эффективных ядер довели throughput до 261 образца в секунду на GPU системы из 8 устройств.
Эксперты отмечают, что развитие LingBot-VLA — это не просто следствие прогресса технологий, а ответ индустрии на вызовы реальных роботов. В ближайшие 12 месяцев ожидается активное внедрение таких моделей в коммерческие и исследовательские проекты, а также переход к более эффективной обработке глубинной информации и гибкому управлению.
На данный момент видно, что те команды, кто сосредоточился на данных и системной интеграции, выигрывают. Остальные сталкиваются с проблемами масштабирования и надежности в сложных сценариях. В целом, индустрия движется к более практичной и универсальной робототехнике — и LingBot-VLA показывает, каким путём можно идти дальше.

