Лид: Bloom обещает перевести поведенческую валидацию моделей из ручного режима в автоматический. Вместо сотен вручную сконструированных сценариев исследователь даёт одно определение поведения - и получает воспроизводимый сьют тестов.
Контраст: раньше команды тратили недели и месяцы на придумывание сценариев, запуск диалогов, чтение длинных транскриптов и агрегацию оценок. Benchmarks быстро устаревают и могут «утечь» в данные для обучения. Anthropic воспринимает это как проблему масштабируемости и предлагает Bloom как инструмент, который генерирует свежие, согласованные с заданным поведением тесты и сохраняет воспроизводимость.
Что такое Bloom и почему это важно
Bloom - это Python-пайплайн с MIT-лицензией, размещённый на GitHub. Исходная идея простая, но практический эффект большой: исследователь описывает целевое поведение (например, sycophancy или self preservation), указывает примеры и число роллаутов, а Bloom автоматически генерирует сотни реалистичных сценариев, прогоняет модель и собирает метрики.
Проще сказать: представь, что раньше ты вручную писал 100 ситуаций и читал 1000 диалогов. Bloom делает это сам и даёт численный отчет - экономия времени и единообразие оценок.
Как это реализовано - структура и интеграции
Ключевой входной файл - seed.yaml, который ссылается на behaviors/behaviors.json и опциональные примеры в behaviors/examples. В конфигурации указывают поведение, примеры, total_evals (сколько роллаутов сгенерировать), rollout.target (например claude-sonnet-4) и контролы - diversity, max_turns, modality, reasoning effort и другие параметры.
Bloom использует LiteLLM как унифицированный бэкенд для вызовов моделей и даёт доступ к Anthropic и OpenAI через единый интерфейс. Для трекинга экспериментов интеграция идёт через Weights & Biases. Результаты экспортируются в Inspect-совместимый JSON, а также доступны через интерактивный просмотрщик транскриптов.
Четырёхступенчатая agentic-пайплайн
- Understanding agent - читает описание поведения и примеры, формирует структурированное резюме того, что считается позитивным проявлением поведения и помечает отрезки в примерах.
- Ideation agent - генерирует кандидаты сценариев с описанием ситуации, персоны пользователя, доступных инструментов и критерием успешного роллаута; генерация батчится и управляется параметром diversity.
- Rollout agent - запускает сценарии на целевой модели, может вести многотуровые диалоги или симулировать окружение, записывает все сообщения и вызовы инструментов; параметры вроде max_turns и no_user_mode управляют автономностью модели.
- Judgment и meta-judgment agents - судья модель ставит каждой транскрипции числовую оценку наличия поведения и может оценивать реализм или силу оценивания; мета-судья суммирует по сьюту и выделяет важные кейсы и паттерны.
Главная метрика и валидация
Основной показатель в Bloom - elicitation rate: доля роллаутов, где поведение получило оценку не ниже 7 из 10. Anthropic использовала Bloom для четырёх наборов оценок, релевантных выравниванию: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый сьют содержит 100 различных роллаутов, прогонялся три раза и проверялся на 16 frontier-моделях.
Отдельно Bloom тестировали на намеренно misaligned model organisms из предыдущих работ по выравниванию: по 10 ''странным'' поведеньям Bloom разделил модель-организм и базовую продакшн-модель в 9 из 10 случаев; по одному случаю самопродвижения ручная проверка показала похожую частоту и объясняет пересечение баллов.
Валидация судейских моделей
Anthropic сравнивала человеческие метки на 40 транскриптах с 11 кандидатами на роль judge-модели. Claude Opus 4.1 показал корреляцию Спирмена 0.86 с людскими оценками; Claude Sonnet 4.5 - 0.75, с заметным согласием на крайних значениях, где важны пороговые решения. Это критично: если судья не согласован с людьми, метрика теряет смысл.
Позиционирование относительно Petri
Anthropic описывает Bloom как дополняющий инструмент к Petri. Petri - широкопокрывающий аудит с семью начальными инструкциями, который резюмирует много аспектов безопасности через многотуровые пробы. Bloom, наоборот, стартует с одной чёткой спецификации поведения и автоматизирует инженерную работу, чтобы получить большой целевой сьют с количественными метриками вроде elicitation rate.
Ключевые факты
- Bloom - open-source Python-пайплайн под MIT-лицензией; репозиторий и материалы доступны на https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom
- Seed.yaml и behaviors.json формируют конфигурацию для генерации сьютов
- Интеграции: LiteLLM, Anthropic и OpenAI через единый интерфейс; Weights & Biases для sweeps; Inspect-совместимый JSON и интерактивный просмотрщик
- Валидация: 4 сьюта по 100 роллаутов, повторы 3 раза, 16 frontier-моделей; отделение misaligned organisms в 9/10 кейсов
- Judge-модель Claude Opus 4.1 - Spearman 0.86 с человеческими метками
Куда это ведёт - тренд и последствия
Bloom обозначает сдвиг в индустрии: безопасность и выравнивание перестают быть только про ручное конструирование сценариев и переходят к автоматизации и массовому тестированию. Это снижает барьер для регулярных, воспроизводимых аудитов и делает возможным частые проверки при быстром развитии моделей.
Но автоматизация не снимает проблему: метрики и судьи надо валидировать на людях, а сценарии всё ещё зависят от корректной спецификации поведения. Есть риск, что автоматические сьюты станут стандартом и их начнут оптимизировать под метрику, а не под реальную безопасность. Anthropic уже пытается минимизировать это через разнообразие сценариев и повторные прогоны.
Вывод и практический совет
Если вы занимаетесь безопасностью или оценкой моделей, Bloom стоит смотреть прямо сейчас: это инструмент, который позволит масштабировать поведенческие проверки и сравнивать модели по количественным метрикам. Но ключевой выбор за вами - валидировать судейские модели и держать контроль над спецификациями поведения, иначе автоматизация просто ускорит ошибочные выводы.
Ссылки на исходные материалы: https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom
