Почему LingBot-VLA меняет подход к управлению роботами

Робототехника долгое время сталкивалась с вызовами универсальности и эффективности. На фоне многообещающих технологий, таких как RAG, оказалось, что реальные задачи требуют гораздо большего — качественной обработки глубинной информации и широкого спектра действий. Пока большинство проектов либо застревали на этапе прототипов, либо теряли эффективность в реальных условиях, — рассказывают эксперты. Парадокс: модели обещали превзойти человека, а на практике часто терпели неудачи из-за нехватки данных и ошибочной архитектуры.

Ant Group выпустила LingBot-VLA — модель, которая объединяет визуальный и языковой модули с новым механизмом обучения. Модель обучена на 20 000 часах телематических данных с 9 конфигураций двойных роботов и прошла масштабное тестирование на сложном GM-100 — наборе из 100 задач, которые требуют точных манипуляций и высокой универсальности.

Проблема данных и особенности обучения

Ранее считалось, что архитектура решает всё — но оказалось, что без качественных данных результаты не нарастут.
Ant Group применяет метод Flow Matching — обучение через транспортировку шума к реальным траекториям, что обеспечивает плавное и последовательное управление.
В наборе данных есть множество уникальных действий — примерно 50% из них не входят в ТОП-100 по частоте, что позволяет модели учиться на широком спектре сценариев.

Инновации в архитектуре и восприятии

LingBot-VLA использует блоковое причинное внимание — чтобы исключить утечки информации из будущего и улучшить качество планирования.
Главное нововведение — модуль LingBot-Depth, обученный по masked depth modeling, который формирует плотные 3D-карты даже при плохих данных или occlusion.
Комплексный подход показал лучшие результаты в реальном мире: успешно выполняет 17,3% задач по успеху на GM-100 и достигает рейтингов, превосходящих конкурентов.

Переход в симуляцию и масштабируемость

В RoboTwin 2.0 модель показывает 88,56% успеха — значительно превышая предыдущие методы.
Значительный вывод — модель хорошо переносит обучение с меньшим количеством демонстраций и при этом обеспечивает высокую эффективность.
Оптимизация обучения с помощью гибридного шардирования, смешанной точности и эффективных ядер довели throughput до 261 образца в секунду на GPU системы из 8 устройств.

Эксперты отмечают, что развитие LingBot-VLA — это не просто следствие прогресса технологий, а ответ индустрии на вызовы реальных роботов. В ближайшие 12 месяцев ожидается активное внедрение таких моделей в коммерческие и исследовательские проекты, а также переход к более эффективной обработке глубинной информации и гибкому управлению.

На данный момент видно, что те команды, кто сосредоточился на данных и системной интеграции, выигрывают. Остальные сталкиваются с проблемами масштабирования и надежности в сложных сценариях. В целом, индустрия движется к более практичной и универсальной робототехнике — и LingBot-VLA показывает, каким путём можно идти дальше.

Ant Group выводит LingBot-VLA — модель для реальных роботов

Проблема данных и особенности обучения

Инновации в архитектуре и восприятии

Переход в симуляцию и масштабируемость

Новости new

Ant Group выводит LingBot-VLA — модель для реальных роботов

Проблема данных и особенности обучения

Инновации в архитектуре и восприятии

Переход в симуляцию и масштабируемость

Читайте также…

Новости new