Как ИИ-агенты учатся задавать правильные вопросы: эксперимент MIT с игрой «Морской бой»

Новая эра ИИ-агентов: от ответов к умным вопросам

В 2026 году хайп вокруг ИИ-агентов (AI agents) достиг пика. Эти полуавтономные программы, способные «думать» и выполнять сложные задачи в сфере обслуживания клиентов или разработки ПО, обычно опираются на большие языковые модели (LLM). Однако в таких критически важных областях, как медицинская диагностика или научные открытия, агентам приходится действовать в условиях высокой неопределенности, где главное — уметь задавать правильные вопросы, а не просто выдавать ответы. Именно здесь современные LLM часто терпят неудачу.

Исследователи из MIT CSAIL (Computer Science and Artificial Intelligence Laboratory) и Гарвардской школы инженерии и прикладных наук (SEAS) провели фундаментальное исследование, чтобы понять, как улучшить этот навык. Их тестовой площадкой стала не сложная лабораторная среда, а классическая игра «Морской бой» (Battleship), которая десятилетиями использовалась когнитивными учеными для изучения человеческого процесса поиска информации.

Кооперативный Морской бой: создание датасета BattleshipQA

Команда добавила в игру новый поворот: они переосмыслили её через призму естественного языка. В их версии, названной «Кооперативный Морской бой» (Collaborative Battleship), один участник выступает в роли «капитана», который задает вопросы о расположении скрытых кораблей, а его напарник — «разведчик» — отвечает на них в реальном времени.

Для создания базы знаний исследователи сначала собрали данные от более чем 40 человек, играющих в эту игру. Их вопросы и ответы «да/нет» были использованы для создания датасета BattleshipQA. Этот набор данных стал эталоном для сравнения с ИИ. Команда протестировала как передовые модели (например, GPT-5), так и более легкие (такие как Llama 4 Scout), не проводя их предварительного обучения на игровых данных.

Проблема «неэффективных вопросов» и решение через Монте-Карло

Результаты показали парадоксальный факт: хотя топовые LLM действительно превосходят людей, побеждая в игре за меньшее количество ходов, более маленькие модели ведут себя иррационально. Главная проблема заключалась в том, что многие модели просто не умеют формулировать информативные вопросы. Они часто спрашивают о маловажных деталях, не сужая пространство возможных решений.

Чтобы исправить это, исследователи внедрили стратегию Монте-Карло-вывода (Monte Carlo inference strategy). Эта методика заставляет ИИ взвешивать вероятность каждого варианта расположения кораблей с каждым новым ответом разведчика. Представьте себе, что каждый возможный вариант расположения корабля — это частица. Когда разведчик отвечает, частицы, соответствующие неверным гипотезам, «сдуваются», а правильные — «надуваются». Это позволяет «капитану» задавать вопросы, которые извлекают максимум информации из каждого ответа.

Эффект кода: как Python помогает ИИ-разведчику

Однако проблема была двусторонней. Если «капитан» мог научиться задавать хорошие вопросы, то «разведчик» часто ошибался в ответах, особенно если это была маленькая модель. Чтобы решить эту проблему, команда использовала Python для автоматической конвертации вопросов в код.

Например, вопрос «Есть ли корабль в первой колонке, занимающий две клетки?» превращается в инструкцию для ИИ-разведчика: «Запусти функцию проверки области, оцени ширину объекта». Поскольку LLM лучше всего работают с кодом, такая «автоформализация» значительно повысила точность ответов. Легковесная модель GPT-4o-mini показала прирост производительности почти на 30%, а крупная модель Claude 4 Opus — на 8 пунктов.

Поражающий результат: Llama 4 Scout против GPT-5

Самым ярким открытием стало улучшение производительности относительно небольшой модели Llama 4 Scout. До внедрения новых методов она выигрывала у людей лишь в 8% случаев. После применения стратегии Монте-Карло и кодовой верификации ее процент побед вырос до 82%. Более того, благодаря эффективному стилу запросов, эта легковесная модель превзошла флагманскую GPT-5, работая при этом примерно за 1% от стоимости последней.

Сравнительная таблица эффективности моделей

Модель	Базовая победа над людьми	Победа с новыми методами	Примечание
Llama 4 Scout (Small)	8%	82%	Превзошла GPT-5 при 1% стоимости
GPT-4o-mini (Spotter)	-	+30% к точности	Результат конвертации в код
Claude 4 Opus (Spotter)	-	+8% к точности	Улучшение верификации
GPT-5 (Captain/Spotter)	Высокий уровень	Слегка улучшился	Экспертные игроки все еще сложны

Что это значит для индустрии ИИ?

Этот эксперимент демонстрирует сдвиг парадигмы в развитии агентных систем. Как отмечает Габриэль Гранд (Gabriel Grand), ведущий автор исследования из MIT CSAIL: «Сегодня языковые модели в основном оптимизированы для ответа на сложные запросы, но неясно, учатся ли они сами задавать хорошие вопросы. Наша работа показывает, что умение задавать информативные вопросы зависит от способности предсказывать и моделировать мир».

Исследование подтверждает, что наличие у агента так называемой «модели мира» (world model) позволяет ему эффективнее делать открытия. Профессор Митчелла Джейкоб Андрес (Jacob Andreas) добавляет, что эта работа открывает путь к использованию подобных техник не только для игр, но и для сложных научных задач, где нужно найти иголку в стоге сена — например, при идентификации молекулярных структур или решении математических проблем.

Границы возможностей и будущие вызовы

Несмотря на успехи, ИИ все еще уступает людям в сложных сценариях. Экспертные игроки в «Морском бое» остаются сложной задачей для всех моделей, в отличие от шахмат, где ИИ уже доминирует над лучшими игроками мира. Также исследователи отмечают, что модели все еще испытывают трудности с ответами на очень сложные вопросы по сравнению с людьми.

В будущем команда планирует протестировать эти методы в других играх, таких как «Угадай кто?» (Guess Who?), где модели успешно сужают выбор до одного персонажа из 100. Более того, исследователи хотят изучить человеко-машинное сотрудничество: смогут ли ИИ-агенты, обученные таким образом, эффективнее работать в команде с людьми, учитывая социальные аспекты взаимодействия, такие как разрешение недоразумений и адаптация к партнеру.

Работа была представлена в качестве устного доклада на конференции ICLR 2026 (International Conference on Learning Representations) и поддерживает идею о том, что главный барьер для ИИ-агентов — это не вычислительная мощность, а прагматическое рассуждение и способность к эффективному сбору информации.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 83
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 60
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 60
4
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 54
5
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 53
6
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 51
7
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 51
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 47

Статьи в блоге

Комментарии ⁰

21 Июня, 2026

Ваш комментарий будет первым