Anthropic Bloom: автоматизация поведенческих оценок моделей

Anthropic выпустила Bloom - агентный open source фреймворк для автоматизации поведенческих оценок фронтирных моделей. Bloom не даёт один маленький статичный бенчмарк, он разрастает тестовую коллекцию из начальной конфигурации и хранит воспроизводимость через seed. Идея проста и болезненна одновременно: ручные сценарии и ручная оценка стали узким местом в безопасности ИИ, и Bloom пытается заменить месяц работы людей на воспроизводимый пайплайн.

Проблема, которую решает Bloom, знакома каждому, кто делал safety оценки - сценарии дорогие и хрупкие, результаты сложно масштабировать, а фиксированные бенчмарки быстро устаревают или протекают в тренировочные данные моделей. Anthropic предлагает смотреть на это как на проблему масштабируемости: нужны свежие, поведенчески согласованные сценарии, которые автоматически генерируются и дают числовые метрики.

Как это устроено - реализация и seed конфигурация

Bloom реализован как Python пайплайн и доступен под MIT лицензией на GitHub. Входной артефакт - файл seed.yaml. В нём указывают ключ поведения из behaviors/behaviors.json, опциональные примеры диалогов и глобальные параметры запуска.

Ключевые параметры seed.yaml: behavior (например, sycophancy или self preservation), examples (few-shot транскрипты), total_evals (сколько rollouts генерировать), rollout.target (модель под тестом, например claude-sonnet-4), controls (diversity, max_turns, modality, reasoning effort и дополнительные качества для оценки).
Backend и интеграции: Bloom использует LiteLLM для вызовов моделей и поддерживает Anthropic и OpenAI через единый интерфейс. Для трекинга больших прогонов интегрирован Weights & Biases. Выходы можно экспортировать в Inspect-совместимый JSON и просматривать через интерактивный viewer.

Четыре agent-ступени пайплайна

Оценочный процесс в Bloom разделён на последовательные агенты, каждый отвечает за свою часть:

Understanding agent - читает описание поведения и примеры, формирует структурированное резюме того, что считается проявлением поведения, и помечает фрагменты в примерах, чтобы другие агенты знали, на что ориентироваться.
Ideation agent - генерирует кандидаты сценариев: ситуация, персонаж пользователя, доступные модели и инструменты, и критерий успеха. Пакетирует генерацию, чтобы экономить токены, и использует параметр diversity для баланса между разными сценами и вариациями.
Rollout agent - запускает сценарии на целевой модели, проводит многотуровые диалоги или симуляции, записывает сообщения и вызовы инструментов. Параметры вроде max_turns, modality, no_user_mode задают автономность модели в прогоне.
Judgment и meta-judgment агенты - судья оценивает каждый транскрипт по шкале и дополнительные качества (реализм, сила эвокации). Мета-судья обобщает все прогоны и выдаёт suite-level отчет. Основная метрика - elicitation rate: доля rollouts с оценкой поведения >= 7 из 10.

Валидация на фронтирных моделях

Anthropic применил Bloom для четырёх наборов, релевантных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self-preservation и self-preferential bias. Каждый набор содержит 100 уникальных rollouts и был повторён трижды по 16 фронтирным моделям. Во всех стадиях в роли оценщика использовали Claude Opus 4.1 для консистентности метрик.

Результаты показывают, что Bloom разделяет модели по частоте проявления поведения. На специально сконструированных «model organisms» из предыдущих работ Bloom отделял организм от базовой production модели в 9 из 10 случаев. В одном поведении - self-promotion - ручная проверка показала похожую частоту у baseline модели, что объясняет совпадение оценок.

Отдельный тест сравнил человеческие метки на 40 транскриптах с 11 кандидатами-судьями. Claude Opus 4.1 дал Spearman корреляцию 0.86 с людьми, Claude Sonnet 4.5 - 0.75. Согласие особенно сильное на высоких и низких концах шкалы, что важно для пороговых метрик вроде elicitation rate.

Позиционирование и отношение к Petri

Anthropic позиционирует Bloom как дополняющий Petri инструмент. Petri - это broad-coverage аудит, который берёт много seed-инструкций и бегает по разным измерениям безопасности. Bloom стартует с одного определения поведения и инженерит большой таргетированный набор тестов с количественными метриками. Проще говоря - Petri широк, Bloom глубок и целенаправлен.

Ключевые выводы и что это значит для индустрии

Bloom переводит ручной цикл создания сценариев в автоматический - это реальное ускорение исследований по безопасности моделей.
Seed-first подход даёт воспроизводимость - сохранённый seed позволяет восстановить тот же набор сценариев.
Выбор модели-судьи критичен - корреляция с человеческими метками измеримо влияет на итоговые метрики.
Интеграции (LiteLLM, Weights & Biases, Inspect) делают Bloom пригодным для больших прогонов и для инженерного использования в командах.

Тренд очевиден: индустрия уходит от статичных бенчмарков и ручной разметки к agent-driven, масштабируемым и воспроизводимым оценкам. В ближайшие 6-12 месяцев мы увидим больше инструментов, которые автоматизируют создание сценариев, стандартизируют метрики и дают прозрачные процессы валидации поведения моделей.

Для практиков это значит следующее - начинать с seed, продумывать кого вы ставите в роль судьи, трекать прогоны через эксперименты и подготовиться к итерациям. Bloom не заменит ручную проверку полностью, но снизит объём рутинной работы и ускорит поиск проблемных паттернов поведения.