Введение в LatentVLA
Современные модели автономного вождения всё чаще обращаются к методам машинного обучения для решения сложных задач. Одним из таких новаторских подходов является LatentVLA — архитектура, которая отходит от языковых данных, предпочитая работу в латентном пространстве. В этой статье мы рассмотрим, как LatentVLA изменяет парадигму автономного вождения.
Отказ от естественного языка
В отличие от некоторых предыдущих подходов, таких как AlpamayoR1, которые интегрировали модели языкового понимания для улучшения рассуждений, LatentVLA предлагает отказаться от естественного языка. Авторы утверждают, что сырые данные вождения уже содержат необходимую структуру для обучения модели, а язык может быть предвзятым и сложным для согласования с действиями.
Предсказание латентных действий
LatentVLA использует самосупервизированный подход для предсказания эгоцентричных латентных действий, что позволяет моделям обучаться на необработанных данных без меток. Это значит, что модель предсказывает, какие действия водитель, вероятно, предпринял для получения данных. Эти действия становятся основой для рассуждений в латентном пространстве.
Обучение представлений
Для предсказания латентных действий используется метод, напоминающий LAPO. Система, состоящая из энкодера и декодера, использует два последовательных кадра для предсказания вектора действий, который затем реконструирует следующий кадр. Это вынуждает представление действий описывать, какое именно действие должно было быть предпринято для наблюдения изменений в данных.
Разделение эго-действий и шума окружающей среды
В условиях вождения действия водителя не являются единственным фактором, влияющим на следующий кадр. LatentVLA решает эту проблему с помощью двухэтапной архитектуры энкодера-декодера. Это обеспечивает чёткое разделение эго-действий и динамики окружающей среды, позволяя модели точнее реконструировать будущие кадры.
Дистилляция знаний
Для достижения реального времени LatentVLA использует дистилляцию знаний. Встроенный модуль слияния в существующих архитектурах E2E позволяет интегрировать визуальные и экшн-эмбеддинги, что помогает модели обучаться на меньших данных, сохраняя знания более крупных моделей.
Оценка и результаты
LatentVLA была оценена на основе NavSim, и хотя демонстрирует улучшенные результаты, некоторые аспекты остаются недостаточно исследованными. В частности, важно проводить более тщательные тесты в закрытых циклах, чтобы лучше оценить потенциал модели для реального вождения.
Заключение
LatentVLA предлагает интересный подход к интеграции знаний моделей VLM в традиционные E2E модели, избегая сложностей, связанных с естественным языком. Однако для полного понимания её потенциала необходимы дополнительные исследования в интерактивных симуляторах.