BAZAAR: новый бенчмарк для оценки моделей ИИ в рыночных аукционах

BAZAAR: новый бенчмарк оценки рыночного мышления ИИ

Исследователи представили BAZAAR — масштабный тест, который заставляет языковые модели вести себя как торговцы на двустороннем аукционе. Без подсказок о чужих ценах агенты учатся балансировать между выгодой и риском.

Каждая сессия — это 30 раундов, где четыре покупателя и четыре продавца делают ставки, зная лишь историю прошлых сделок. Никаких подсказок и чатов: только свои оценки и реакция на исход торгов.

Лидеры показывают себя по-разному

TrueSkill-рейтинг возглавляют o3 (модель среднего уровня рассуждений) и Gemini 2.5 Pro — они находят золотую середину между аккуратностью и смелостью ставок. Некоторые модели стартуют консервативно, постепенно наращивая агрессию, а другие сразу идут в атаку и корректируют курс после первых неудач.

Метрика Conditional Surplus Alpha (CSα) оценивает, насколько реальная прибыль модели отличается от идеально честной стратегии. Широкий разброс результатов отражает степень риска: узкие кластеры говорят о стабильности, а разбросанные точки — о потенциальных гениальных, но рискованных ходах.

Что дальше?

BAZAAR открывает окно в «экономическое чутьё» ИИ и подталкивает к новым стратегиям обучения. Хотите проверить свои модели или предложить улучшения? Репозиторий открыт для экспериментов, а результаты могут подсказать, как сделать торговых агентов более чуткими и прибыльными.

25 июля 2025, 14:07

Новости индустрии ИИ

BAZAAR: новый бенчмарк для оценки моделей ИИ в рыночных аукционах

BAZAAR: новый бенчмарк оценки рыночного мышления ИИ

Лидеры показывают себя по-разному

Что дальше?

Связанные ИИ

Новости new