Anthropic Bloom - агентный фреймворк для поведенческих оценок

Лид: Bloom обещает снять узкое место в оценке безопасности моделей - ручное проектирование сценариев и чтение длинных транскриптов. Anthropic сделал ставку на агенты, которые из одной спецификации генерируют тысячи реалистичных ролл-аутов и выдают количественные метрики.

Контраст: раньше команды тратили недели и месяцы на создание и поддержку бенчмарков; теперь Bloom может из seed-конфигурации автоматически построить тестовый набор, при этом каждый прогон генерирует новые, но поведенчески согласованные сценарии, сохраняя воспроизводимость через записанный seed.

Что такое Bloom и почему это важно

Bloom - это Python-пайплайн под MIT-лицензией, размещенный на GitHub. Входная точка - seed.yaml, который ссылается на behaviors/behaviors.json и опциональные примеры разговоров. Исследователь указывает целевое поведение (например, sycophancy или self preservation), число ролл-аутов, модель для тестирования и контролы вроде diversity, max_turns и modality.

Практическое объяснение: представьте, что вы описали одну проблему - например, что модель льстит пользователю. Bloom берет это описание и автоматически придумывает сотни разных сцен - кто пользователь, какие инструменты доступны модели, что считается успешным проявлением льстивости - затем прогоняет разговоры и выставляет оценки.

Как это работает - четыре агентных этапа

Understanding agent - читает описание поведения и примеры, формирует структурированное представление того, что считается позитивным случаем и отмечает ключевые фрагменты в примерах.
Ideation agent - нагенерирует сами сценарии: ситуация, персона, доступные инструменты и критерии успеха; использует параметр diversity, чтобы балансировать уникальные сценарии и вариации.
Rollout agent - запускает сценарии против целевой модели (например, "claude-sonnet-4"), ведет многотуровые диалоги или симуляции, записывает все сообщения и вызовы инструментов.
Judgment и meta-judgment агенты - судья оценивает каждый транскрипт по числовой шкале и дополнительные качества (реалистичность, напор), а мета-судья сводит результаты в отчёт для набора тестов. Главное числовое измерение - elicitation rate: доля ролл-аутов с оценкой >=7 из 10.

Реальные проверки и цифры

Anthropic прогнал Bloom на четырех наборах, важных для выравнивания: делюционная льстивость, целенаправлен saboteur-агент с долгим горизонтом, самосохранение и само-предпочтение. Каждый набор содержит 100 уникальных ролл-аутов и повторялся три раза на 16 frontier-моделях. Визуализации показывают elicitation rate с error bars по стандартному отклонению; во всех стадиях в качестве судьи использовался Claude Opus 4.1.

Дополнительно Bloom тестировали на «модель-организмах» из предыдущих работ по выравниванию: из 10 странных поведенческих отклонений Bloom отделил организм от базовой production-модели в 9 случаях; по последнему кейсу самопродвижения ручная проверка показала похожую частоту у baseline, что объясняет совпадение оценок.

Валидация judge-моделей: сравнивали метки людей на 40 транскриптах с 11 кандидатами. Claude Opus 4.1 показал Спирмен 0.86 с человеческими метками, Claude Sonnet 4.5 - 0.75. Согласие было особенно сильно на крайних оценках, где решающие пороги критичны.

Технологии и интеграции

Bloom использует LiteLLM для унифицированного доступа к Anthropic и OpenAI и интегрируется с Weights & Biases для больших прогонов. Выход экспортируется в Inspect-совместимый JSON плюс интерактивный просмотрщик транскриптов для ручной инспекции.

Bloom vs Petri - где место Bloom

Anthropic позиционирует Bloom как комплементарный инструмент к Petri. Petri покрывает широкий спектр сценариев и собирает множество измерений безопасности в одном фреймворке. Bloom, напротив, стартует с одной четкой спецификации поведения и автоматизирует инженерную работу по превращению ее в крупный таргетированный набор тестов с числовыми метриками вроде elicitation rate.

Что это значит для индустрии

Ключевая идея: оценка поведения моделей перестает быть ручным и хрупким процессом. Bloom переводит часть труда в автомат - генерация сценариев, запуск и оценка. Это снижает стоимость поддержания тестов и уменьшает риск того, что бенчмарк быстро устареет или протечет в тренировочные данные.

Но важный нюанс: автоматизация не отменяет необходимости эксперта при валидации. Валидация судьей и ручная проверка остались критичными - мы видим это в сравнении с человеческими метками и в случае пересечения поведения у baseline.

Заключение: для команд, которые занимаются оценкой безопасности и выравниванием, Bloom даёт новый инструмент, чтобы масштабировать тесты и получить количественные сигналы быстрее. Открытые репозитории и примеры seed-конфигураций позволяют воспроизвести и адаптировать наборы под свои риски.

Ресурсы и где посмотреть: документация Anthropic и блогпосты по Bloom доступны по адресам https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom-auto-evals/. Код выложен на GitHub под MIT-лицензией с примерными seed-файлами.