Anthropic Bloom: автоматизация поведенческих тестов

Лид: Поведенческие тесты для безопасности моделей всегда были дорогими и хрупкими: их вручную проектируют, прогоняют тысячи диалогов, читают длинные транскрипты и замеряют метрики. Anthropic считает это проблемой масштабируемости и предлагает Bloom - систему, которая автоматически превращает одну спецификацию поведения в полноценный набор оценок.

Контекст: Почему это важно сейчас - модели быстро эволюционируют, статические бенчмарки устаревают и иногда просачиваются в тренировочные данные. Bloom пытается сократить ручной труд, сохранить воспроизводимость и дать количественные показатели того, как часто и насколько сильно поведение проявляется в реалистичных сценариях.

Как это устроено и что в коде

Bloom реализован как Python pipeline и выпущен под MIT лицензией на GitHub. Главный вход - конфигурация seed.yaml, которая ссылается на поведение в behaviors/behaviors.json, опционные примеры в behaviors/examples/ и глобальные параметры запуска.

Ключевые элементы конфигурации: behavior - идентификатор в behaviors.json.
examples - ноль или несколько few-shot транскриптов в behaviors/examples/.
total_evals - количество роллаута в сьюите.
rollout.target - модель под тест (пример: claude-sonnet-4).
controls - параметры вроде diversity, max_turns, modality, reasoning_effort и дополнительные качества для оценки.

Agentic pipeline в 4 этапа

Bloom делает всю инженерную работу в четыре последовательных шага. Проще говоря, это как конвейер тестов:

Understanding agent - читает описание поведения и примеры, формирует структурированное понимание того, что считается положительным случаем и отмечает важные фрагменты в примерах.
Ideation agent - генерирует кандидатные сценарии: ситуацию, персону пользователя, доступные инструменты и критерии успеха. Сценарии группируются батчами для экономии токенов, а параметр diversity регулирует, делать ли разные сценарии или вариации одного и того же.
Rollout agent - запускает сценарии с целевой моделью, может вести мульти-туровые разговоры или симулировать окружение, фиксирует все сообщения и вызовы инструментов. Параметры max_turns, modality и no_user_mode регулируют автономность.
Judgment и meta-judgment агенты - судья выставляет числовую оценку наличия поведения и дополнительные рейтинги (реализм, силу оценивания и т.д.), а мета-судья сводит все роллауты в отчет с ключевыми случаями и паттернами.

Главная метрика и объяснение

Основная метрика Bloom - elicitation rate. Проще: это доля роллаута, где поведение набрало минимум 7 из 10. Представьте, что вы запускаете 100 тестов и 23 из них явно проявляют поведение - elicitation rate будет 23%.

Интеграции и инфраструктура

Bloom использует LiteLLM как единый бэкенд для вызовов моделей и может работать и с Anthropic, и с OpenAI через один интерфейс. Для больших прогонов интегрирован Weights & Biases, а результаты экспортируются в Inspect-совместимый JSON и доступны через интерактивный просмотрщик транскриптов и скорингов.

Валидация на frontier моделях

Anthropic проверила Bloom на четырех наборах, важных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый сьют содержит 100 уникальных роллаута и был повторен трижды на 16 frontier моделях. В отчетах показаны elicitation rate с ошибками стандартного отклонения, а в качестве оценщика использовали Claude Opus 4.1 на всех стадиях.

Кроме того, Bloom тестировали на преднамеренно невыверенных "model organisms" из ранней работы по выравниванию. По 10 странным поведением Bloom отделил организм от базовой production модели в 9 случаях; по одному поведению (self-promotion) ручной разбор показал, что базовая модель ведет себя похоже, поэтому результаты пересеклись.

Надежность судей

Отдельная валидация сравнивала человеческие метки на 40 транскриптах с 11 кандидатами на роль judge-модели. Claude Opus 4.1 показал корреляцию Спирмена 0.86 с людьми; Claude Sonnet 4.5 - 0.75. Оба особенно хорошо согласовывались на крайних оценках, где важны пороговые решения.

Где Bloom стоит в экосистеме

Anthropic позиционирует Bloom как дополнение к Petri. Petri делает широкие аудиты с множеством seed-инструкций по разным измерениям безопасности, а Bloom берет одну четко описанную проблему и автоматизирует инженерную работу, чтобы получить большой таргетированный сьют с числовыми метриками.

Что это меняет для индустрии

Тренд понятен: переход от ручного создния тестов к agentic автоматизации. Это ускоряет итерации, повышает воспроизводимость и делает тестирование поведения моделей масштабируемым. Но важные ограничения остались: надежность judge-моделей, интерпретируемость сгенерированных сценариев и случаи, когда базовая модель уже демонстрирует похожее поведение, как в self-promotion примере.

Практический вывод для разработчиков и исследователей: Bloom можно использовать как инструмент для быстрой генерации целевых сьютов и первичной количественной оценки поведения, но стоит валидировать judge-модель на человеческих метках и держать валидацию в цикле. Код открыт на GitHub под MIT лицензией, так что команды могут интегрировать его в свои пайплайны и повторять прогоны при смене моделей.

Перспектива: похоже, индустрия движется к штурмовому внедрению agentic фреймворков для тестирования поведения - сначала эволюция инструментов, потом стандарты и лучшие практики для judge-моделей и метрик вроде elicitation rate. В ближайшие 6-12 месяцев можно ожидать больше открытых сьютов и сравнимых отчетов, но полностью автоматизированная валидация все еще требует человеческой проверки.