Новая эра ИИ-агентов: от ответов к умным вопросам
В 2026 году хайп вокруг ИИ-агентов (AI agents) достиг пика. Эти полуавтономные программы, способные «думать» и выполнять сложные задачи в сфере обслуживания клиентов или разработки ПО, обычно опираются на большие языковые модели (LLM). Однако в таких критически важных областях, как медицинская диагностика или научные открытия, агентам приходится действовать в условиях высокой неопределенности, где главное — уметь задавать правильные вопросы, а не просто выдавать ответы. Именно здесь современные LLM часто терпят неудачу.
Исследователи из MIT CSAIL (Computer Science and Artificial Intelligence Laboratory) и Гарвардской школы инженерии и прикладных наук (SEAS) провели фундаментальное исследование, чтобы понять, как улучшить этот навык. Их тестовой площадкой стала не сложная лабораторная среда, а классическая игра «Морской бой» (Battleship), которая десятилетиями использовалась когнитивными учеными для изучения человеческого процесса поиска информации.
Кооперативный Морской бой: создание датасета BattleshipQA
Команда добавила в игру новый поворот: они переосмыслили её через призму естественного языка. В их версии, названной «Кооперативный Морской бой» (Collaborative Battleship), один участник выступает в роли «капитана», который задает вопросы о расположении скрытых кораблей, а его напарник — «разведчик» — отвечает на них в реальном времени.
Для создания базы знаний исследователи сначала собрали данные от более чем 40 человек, играющих в эту игру. Их вопросы и ответы «да/нет» были использованы для создания датасета BattleshipQA. Этот набор данных стал эталоном для сравнения с ИИ. Команда протестировала как передовые модели (например, GPT-5), так и более легкие (такие как Llama 4 Scout), не проводя их предварительного обучения на игровых данных.
Проблема «неэффективных вопросов» и решение через Монте-Карло
Результаты показали парадоксальный факт: хотя топовые LLM действительно превосходят людей, побеждая в игре за меньшее количество ходов, более маленькие модели ведут себя иррационально. Главная проблема заключалась в том, что многие модели просто не умеют формулировать информативные вопросы. Они часто спрашивают о маловажных деталях, не сужая пространство возможных решений.
Чтобы исправить это, исследователи внедрили стратегию Монте-Карло-вывода (Monte Carlo inference strategy). Эта методика заставляет ИИ взвешивать вероятность каждого варианта расположения кораблей с каждым новым ответом разведчика. Представьте себе, что каждый возможный вариант расположения корабля — это частица. Когда разведчик отвечает, частицы, соответствующие неверным гипотезам, «сдуваются», а правильные — «надуваются». Это позволяет «капитану» задавать вопросы, которые извлекают максимум информации из каждого ответа.
Эффект кода: как Python помогает ИИ-разведчику
Однако проблема была двусторонней. Если «капитан» мог научиться задавать хорошие вопросы, то «разведчик» часто ошибался в ответах, особенно если это была маленькая модель. Чтобы решить эту проблему, команда использовала Python для автоматической конвертации вопросов в код.
Например, вопрос «Есть ли корабль в первой колонке, занимающий две клетки?» превращается в инструкцию для ИИ-разведчика: «Запусти функцию проверки области, оцени ширину объекта». Поскольку LLM лучше всего работают с кодом, такая «автоформализация» значительно повысила точность ответов. Легковесная модель GPT-4o-mini показала прирост производительности почти на 30%, а крупная модель Claude 4 Opus — на 8 пунктов.
Поражающий результат: Llama 4 Scout против GPT-5
Самым ярким открытием стало улучшение производительности относительно небольшой модели Llama 4 Scout. До внедрения новых методов она выигрывала у людей лишь в 8% случаев. После применения стратегии Монте-Карло и кодовой верификации ее процент побед вырос до 82%. Более того, благодаря эффективному стилу запросов, эта легковесная модель превзошла флагманскую GPT-5, работая при этом примерно за 1% от стоимости последней.
Сравнительная таблица эффективности моделей
| Модель | Базовая победа над людьми | Победа с новыми методами | Примечание |
|---|---|---|---|
| Llama 4 Scout (Small) | 8% | 82% | Превзошла GPT-5 при 1% стоимости |
| GPT-4o-mini (Spotter) | - | +30% к точности | Результат конвертации в код |
| Claude 4 Opus (Spotter) | - | +8% к точности | Улучшение верификации |
| GPT-5 (Captain/Spotter) | Высокий уровень | Слегка улучшился | Экспертные игроки все еще сложны |
Что это значит для индустрии ИИ?
Этот эксперимент демонстрирует сдвиг парадигмы в развитии агентных систем. Как отмечает Габриэль Гранд (Gabriel Grand), ведущий автор исследования из MIT CSAIL: «Сегодня языковые модели в основном оптимизированы для ответа на сложные запросы, но неясно, учатся ли они сами задавать хорошие вопросы. Наша работа показывает, что умение задавать информативные вопросы зависит от способности предсказывать и моделировать мир».
Исследование подтверждает, что наличие у агента так называемой «модели мира» (world model) позволяет ему эффективнее делать открытия. Профессор Митчелла Джейкоб Андрес (Jacob Andreas) добавляет, что эта работа открывает путь к использованию подобных техник не только для игр, но и для сложных научных задач, где нужно найти иголку в стоге сена — например, при идентификации молекулярных структур или решении математических проблем.
Границы возможностей и будущие вызовы
Несмотря на успехи, ИИ все еще уступает людям в сложных сценариях. Экспертные игроки в «Морском бое» остаются сложной задачей для всех моделей, в отличие от шахмат, где ИИ уже доминирует над лучшими игроками мира. Также исследователи отмечают, что модели все еще испытывают трудности с ответами на очень сложные вопросы по сравнению с людьми.
В будущем команда планирует протестировать эти методы в других играх, таких как «Угадай кто?» (Guess Who?), где модели успешно сужают выбор до одного персонажа из 100. Более того, исследователи хотят изучить человеко-машинное сотрудничество: смогут ли ИИ-агенты, обученные таким образом, эффективнее работать в команде с людьми, учитывая социальные аспекты взаимодействия, такие как разрешение недоразумений и адаптация к партнеру.
Работа была представлена в качестве устного доклада на конференции ICLR 2026 (International Conference on Learning Representations) и поддерживает идею о том, что главный барьер для ИИ-агентов — это не вычислительная мощность, а прагматическое рассуждение и способность к эффективному сбору информации.