BAZAAR: новый бенчмарк оценки рыночного мышления ИИ
Исследователи представили BAZAAR — масштабный тест, который заставляет языковые модели вести себя как торговцы на двустороннем аукционе. Без подсказок о чужих ценах агенты учатся балансировать между выгодой и риском.
Каждая сессия — это 30 раундов, где четыре покупателя и четыре продавца делают ставки, зная лишь историю прошлых сделок. Никаких подсказок и чатов: только свои оценки и реакция на исход торгов.
Лидеры показывают себя по-разному
TrueSkill-рейтинг возглавляют o3 (модель среднего уровня рассуждений) и Gemini 2.5 Pro — они находят золотую середину между аккуратностью и смелостью ставок. Некоторые модели стартуют консервативно, постепенно наращивая агрессию, а другие сразу идут в атаку и корректируют курс после первых неудач.
Метрика Conditional Surplus Alpha (CSα) оценивает, насколько реальная прибыль модели отличается от идеально честной стратегии. Широкий разброс результатов отражает степень риска: узкие кластеры говорят о стабильности, а разбросанные точки — о потенциальных гениальных, но рискованных ходах.
Что дальше?
BAZAAR открывает окно в «экономическое чутьё» ИИ и подталкивает к новым стратегиям обучения. Хотите проверить свои модели или предложить улучшения? Репозиторий открыт для экспериментов, а результаты могут подсказать, как сделать торговых агентов более чуткими и прибыльными.
