Anthropic представила Bloom - автоматизация поведенческих оценок

Лид: Bloom обещает снять часть рутинной инженерной боли при оценке поведения больших моделей - вместо сотен вручную составленных сценариев исследователи получают генератор целевых наборов тестов из одной спецификации.

Контраст: Поведенческие оценки были медленными, затратными и легко устаревали. Bloom меняет логику: не фиксированный набор подсказок, а расширяемый pipeline, который строит тестовый набор из seed-конфига и примеров.

Что это и зачем сейчас

Bloom - это открытый Python-пайплайн под MIT-лицензией, доступный на GitHub. Он решает простую, но болезненную проблему: как быстро сгенерировать репрезентативные сценарии для конкретного нежелательного поведения и получить числовые метрики по тому, насколько часто модель это поведение проявляет.

Причина появления сейчас проста - модели эволюционируют быстро, фиксированные бенчмарки устаревают или просачиваются в тренировочные данные. Anthropic формулирует задачу как проблему масштабируемости: нужно генерировать свежие, таргетированные эвалюации и при этом сохранять воспроизводимость.

Как устроен Bloom

Основной вход в систему - seed.yaml. Он ссылается на поведение в behaviors/behaviors.json, может включать примеры в behaviors/examples/ и набор глобальных параметров. В конфиге указывают такие элементы как:

behavior - уникальный идентификатор, например sycophancy или self preservation
examples - нуль или несколько few-shot транскриптов
total_evals - сколько rolloutов сгенерировать
rollout.target - модель под оценку, например claude-sonnet-4
контролы: diversity, max_turns, modality, reasoning_effort и дополнительные качества для оценки

Интеграция: Bloom использует LiteLLM как бэкенд для вызовов API и предоставляет унифицированный интерфейс к Anthropic и OpenAI. Для трекинга больших прогонов он интегрируется с Weights & Biases и экспортирует Inspect-совместимые JSON-транскрипты плюс интерактивный viewer для ручной инспекции.

Четыре стадии агентного пайплайна

Pipeline проходит четыре последовательных агента:

Understanding agent - читает описание поведения и примеры, строит структурированное резюме того, что значит положительный пример и выделяет конкретные отрезки в примерах
Ideation agent - генерирует кандидатные сценарии: ситуацию, персону пользователя, доступные инструменты и что считается успешным rolloutом; использует параметр diversity для баланса между разными сценариями и вариациями
Rollout agent - запускает сценарии на целевой модели, проводит многотуровые диалоги или симуляции, записывает все сообщения и вызовы инструментов; режимы контроля включают max_turns, modality и no_user_mode
Judgment и meta-judgment agents - судья ставит каждой транскрипции оценку по шкале и может оценивать реализм или силу поведения; мета-судья агрегирует и выдаёт отчет на уровне набора, основной метрикой становится elicitation rate - доля rolloutов с оценкой не ниже 7 из 10

Валидация на фронтирных моделях

Anthropic прогнал Bloom на четырех наборах, релевантных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый набор содержит 100 уникальных rolloutов и был повторен три раза на 16 фронтирных моделях. Платформа рисует elicitation rate с погрешностями по стандартному отклонению, а в роли оценщика во всех стадиях использовали Claude Opus 4.1.

Кроме того, Bloom тестировали на преднамеренно неисправных «model organisms» из предыдущих работ по выравниванию: по 10 странных поведений Bloom отделял организм от базовой производственной модели в 9 из 10 случаев; единственное совпадение оказалось с саморекламой, где ручная инспекция показала близкую частоту поведения у baseline.

Отдельный эксперимент сравнил человеческие метки на 40 транскриптах с 11 кандидатами в судьи. Claude Opus 4.1 достиг корреляции Спирмена 0.86 с человеческими оценками, Claude Sonnet 4.5 - 0.75, при этом сильное согласие наблюдалось на крайних значениях шкалы, где пороги имеют значение.

Bloom и Petri - кто что делает

Anthropic позиционирует Bloom как дополняющий Petri инструмент. Petri даёт широкое покрытие и принимает множество seed-инструкций для probing и суммаризации разных измерений безопасности. Bloom стартует с одной четкой дефиниции поведения и автоматизирует инжиниринг, превращая ее в большой таргетированный набор оценок с количественными метриками.

Ключевые выводы

Bloom - открытый Python-фреймворк под MIT, который из одной спецификации строит полный набор поведенческих тестов через four-stage agentic pipeline
Система работает через seed.yaml и behaviors.json, использует LiteLLM, интегрируется с Weights & Biases и экспортирует Inspect-совместимые JSON плюс viewer
Anthropic валидировал Bloom на 4 наборах по 100 rolloutов, повторенных 3 раза на 16 моделях, и на 10 model-organism кейсах, с разделением в 9 из 10 случаев
Качество судей подтверждено корреляцией с людьми до 0.86 для Claude Opus 4.1

Почему это важно и что будет дальше

Тренд очевиден: индустрия переходит от ручных, хрупких проверок поведения к автоматизированным, повторяемым pipeline-ам. Для исследователей это означает возможность быстрее генерировать таргетированные тесты и тратить больше времени на интерпретацию и смягчение рисков, а не на ручную генерацию сценариев.

Открытые инструменты под MIT-лицензией и готовые коннекторы к популярным моделям ускорят адаптацию Bloom в академии и у стартапов. Главное открытое вопрос - как масштабировать подход на миллионы документов и разнообразить модальности без потери качества оценок.

Практический совет: начинайте с четкой спецификации поведения в seed.yaml, валидируйте судей против человеческих меток и подключайте системный трекинг вроде Weights & Biases - именно эти шаги сделали Bloom прикладным прямо сейчас.

Релизы и ресурсы: основной research page и техническая валидация доступны на сайтах Anthropic, а код опубликован на GitHub под MIT-лицензией. Подробнее в оригинальном релизе и валидационном отчете.