Когда мысли влияют на действия
Представьте себе робота, который не просто исполняет команду «подай чашку», а сначала обдумывает каждый шаг, предугадывает возможные ошибки и адаптируется на ходу. Звучит как научная фантастика? Сегодня Nvidia сделала его реальностью.
Новый фреймворк ThinkAct сочетает в себе два «мозга»: мультимодальную LLM, способную планировать и рассуждать, и модель действий, выполняющую задачи в реальном времени. Благодаря усиленному визуальному обратному сигналу ThinkAct обучается не на голых переходах «изображение—действие», а на глубоких рассуждениях о том, как достичь цели оптимальным путём.
А что даёт такой подход? Во-первых, мало-шотная адаптация: даже при ограниченном количестве примеров ThinkAct быстро «включается» в новую среду. Во-вторых, длинные горизонты планирования: система строит многошаговый план, словно шахматист, продумывающий ходы наперёд. И, наконец, самокоррекция: заметив отклонение от цели, ThinkAct пересматривает стратегию и корректирует курс.
В экспериментальных испытаниях на средах SimplerEnv и LIBERO робот с ThinkAct обогнал конкурентов по точности и надёжности. В задачах визуально-языкового вопросно-ответного тестирования — RoboVQA и OpenEQA — наша новинка также показала высший класс. Да что там сравнения: результаты говорили сами за себя!
Но главное — зачем всё это нужно нам? Представьте автоматизацию на складах, в хирургии или в сложных производственных линиях, где единичная ошибка стоит дорого. ThinkAct не только выполняет команды, но и учится на своих промахах, снижая риск и увеличивая эффективность.
Честно говоря, иногда техника пугает своей самодостаточностью. Но знаете, когда она думает на уровне человека и исправляет себя — это уже не просто машина, а партнёр, на которого можно положиться.
Что дальше? Nvidia открывает данные и код фреймворка, чтобы исследователи и инженеры могли развивать ThinkAct в своих проектах. А мы, в свою очередь, с нетерпением ждём первых промышленных внедрений и новых историй успеха.
