Исследователи из MIT CSAIL и Гарвардской школы инженерии использовали классическую игру «Морской бой», чтобы проверить, насколько хорошо ИИ-агенты умеют искать информацию в условиях неопределенности. Результат оказался неожиданным: небольшая языковая модель после доработки стратегии смогла превзойти более дорогие передовые модели и при этом работать примерно за 1% их стоимости.
Работа важна не только для игр. Современные ИИ-агенты все чаще применяются в программировании, поддержке клиентов, анализе данных и научных задачах. Но во многих реальных сценариях им нужно не просто отвечать на вопросы, а самим понимать, какие вопросы стоит задать, чтобы быстрее добраться до решения.
Почему «Морской бой» стал тестом для ИИ
В обычном «Морском бое» игрок пытается найти скрытые корабли, делая предположения и получая короткие ответы. Для ученых это удобная модель поиска: информации мало, вариантов много, а каждый вопрос должен приближать к цели.
Команда MIT изменила правила и создала версию под названием Collaborative Battleship. В ней один участник играет роль капитана и задает вопросы о расположении кораблей, а второй участник, «наблюдатель», отвечает на них в режиме реального времени.
Сначала исследователи попросили более 40 человек сыграть в такую версию игры. Их вопросы и ответы стали основой датасета BattleshipQA, с которым затем сравнивали поведение языковых моделей.
Большие модели сильны, но не всегда рациональны
Ученые протестировали как крупные языковые модели уровня GPT-5, так и более компактные системы, включая Llama 4 Scout. Без дополнительной настройки сильные модели могли проходить игру быстрее средних игроков-людей. Но небольшие модели часто задавали слабые вопросы и плохо сужали область поиска.
Главная проблема оказалась не в знании правил, а в стратегии. Многие модели умеют красиво отвечать, но хуже справляются с самостоятельным исследованием неизвестной ситуации. Они могут спросить что-то формально правильное, но почти бесполезное для продвижения к ответу.
Метод Монте-Карло помог ИИ думать вероятностями
Чтобы улучшить поведение агентов, исследователи добавили стратегию вывода Монте-Карло. Простыми словами, модель начинает рассматривать множество возможных вариантов расположения кораблей и после каждого ответа пересчитывает, какие из них выглядят более вероятными.
Это похоже на набор гипотез, где одни версии постепенно усиливаются, а другие теряют вес. Благодаря этому капитан-ИИ выбирает вопросы не наугад, а так, чтобы получить максимум полезной информации за один ход.
Именно этот подход резко изменил результаты. Llama 4 Scout без доработки выигрывала у людей только в 8% случаев. После добавления новой стратегии ее показатель вырос до 82%, а в некоторых сценариях модель стала быстрее, чем более дорогая GPT-5.
Код помог моделям точнее отвечать
Вторая часть работы была посвящена роли «наблюдателя», который отвечает на вопросы капитана. Малые модели часто ошибались, когда им нужно было проверить сложное условие: например, есть ли корабль в конкретной колонке и занимает ли он две строки.
Для решения этой проблемы вопросы автоматически переводились в команды на Python. Такой код явно указывал модели, какую область проверить и какое условие подтвердить. Иными словами, вместо расплывчатого рассуждения ИИ получал понятную инструкцию для проверки.
Это заметно повысило точность ответов. В среднем модели стали отвечать правильнее примерно на 15%. У GPT-4o-mini прирост достиг почти 30%, а даже крупная Claude 4 Opus улучшила результат примерно на восемь процентных пунктов.
Проверка на «Угадай кто?» подтвердила идею
Исследователи также испытали метод в другой игре — «Угадай кто?». Там агент должен задавать вопросы, чтобы среди 100 возможных персонажей найти выбранного.
После доработки маленькие и большие модели стали гораздо лучше отсекать неверные варианты. Llama 4 Scout поднялась примерно с 30% успешных попыток до более чем 72%, а GPT-4o улучшила результат с 62% до 90%.
Что это значит для индустрии ИИ
Для рынка ИИ это важный сигнал: рост качества агентов не всегда требует гигантских моделей и огромных расходов. Иногда ключевым фактором становится не размер модели, а способ, которым она исследует задачу, проверяет гипотезы и выбирает следующий шаг.
Такие методы могут пригодиться в задачах типа «иголка в стоге сена»: поиске новых молекул, анализе научных гипотез, отладке сложного кода или диагностике проблем в больших системах. В этих областях важно не просто знать много фактов, а уметь быстро выяснять недостающую информацию.
При этом авторы подчеркивают, что игровая среда все еще проще реального мира. В медицине, науке и инженерии вариантов больше, данные шумнее, а последствия ошибок выше. Поэтому следующий шаг — проверка таких ИИ-агентов в более сложных и практических задачах.
Главный вывод: ИИ нужно учить спрашивать
Сегодня языковые модели в основном оптимизируют под ответы. Но для настоящих автономных агентов этого недостаточно. Им нужно понимать, какой вопрос уменьшит неопределенность, какие данные стоит запросить и как проверить полученную информацию.
Работа MIT показывает, что даже компактные модели могут стать намного сильнее, если дать им более точную модель мира и инструменты для проверки собственных гипотез. Для индустрии это путь к более дешевым, надежным и полезным ИИ-агентам, которые не просто отвечают, а действительно исследуют проблему.
