IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Anthropic выпустила Bloom - автоматизация поведенческих тестов для frontier-моделей

    Anthropic выпустила Bloom - автоматизация поведенческих тестов для frontier-моделей

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Anthropic выпустила Bloom - автоматизация поведенческих тестов для frontier-моделей
    Bloom от Anthropic: open source фреймворк для автоматизированных поведенческих тестов

    Лид: Поведенческие тесты для безопасности моделей всегда были дорогими и хрупкими: их вручную проектируют, прогоняют тысячи диалогов, читают длинные транскрипты и замеряют метрики. Anthropic считает это проблемой масштабируемости и предлагает Bloom - систему, которая автоматически превращает одну спецификацию поведения в полноценный набор оценок.

    Контекст: Почему это важно сейчас - модели быстро эволюционируют, статические бенчмарки устаревают и иногда просачиваются в тренировочные данные. Bloom пытается сократить ручной труд, сохранить воспроизводимость и дать количественные показатели того, как часто и насколько сильно поведение проявляется в реалистичных сценариях.

    Как это устроено и что в коде

    Bloom реализован как Python pipeline и выпущен под MIT лицензией на GitHub. Главный вход - конфигурация seed.yaml, которая ссылается на поведение в behaviors/behaviors.json, опционные примеры в behaviors/examples/ и глобальные параметры запуска.

    • Ключевые элементы конфигурации: behavior - идентификатор в behaviors.json.
    • examples - ноль или несколько few-shot транскриптов в behaviors/examples/.
    • total_evals - количество роллаута в сьюите.
    • rollout.target - модель под тест (пример: claude-sonnet-4).
    • controls - параметры вроде diversity, max_turns, modality, reasoning_effort и дополнительные качества для оценки.

    Agentic pipeline в 4 этапа

    Bloom делает всю инженерную работу в четыре последовательных шага. Проще говоря, это как конвейер тестов:

    • Understanding agent - читает описание поведения и примеры, формирует структурированное понимание того, что считается положительным случаем и отмечает важные фрагменты в примерах.
    • Ideation agent - генерирует кандидатные сценарии: ситуацию, персону пользователя, доступные инструменты и критерии успеха. Сценарии группируются батчами для экономии токенов, а параметр diversity регулирует, делать ли разные сценарии или вариации одного и того же.
    • Rollout agent - запускает сценарии с целевой моделью, может вести мульти-туровые разговоры или симулировать окружение, фиксирует все сообщения и вызовы инструментов. Параметры max_turns, modality и no_user_mode регулируют автономность.
    • Judgment и meta-judgment агенты - судья выставляет числовую оценку наличия поведения и дополнительные рейтинги (реализм, силу оценивания и т.д.), а мета-судья сводит все роллауты в отчет с ключевыми случаями и паттернами.

    Главная метрика и объяснение

    Основная метрика Bloom - elicitation rate. Проще: это доля роллаута, где поведение набрало минимум 7 из 10. Представьте, что вы запускаете 100 тестов и 23 из них явно проявляют поведение - elicitation rate будет 23%.

    Интеграции и инфраструктура

    Bloom использует LiteLLM как единый бэкенд для вызовов моделей и может работать и с Anthropic, и с OpenAI через один интерфейс. Для больших прогонов интегрирован Weights & Biases, а результаты экспортируются в Inspect-совместимый JSON и доступны через интерактивный просмотрщик транскриптов и скорингов.

    Валидация на frontier моделях

    Anthropic проверила Bloom на четырех наборах, важных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый сьют содержит 100 уникальных роллаута и был повторен трижды на 16 frontier моделях. В отчетах показаны elicitation rate с ошибками стандартного отклонения, а в качестве оценщика использовали Claude Opus 4.1 на всех стадиях.

    Кроме того, Bloom тестировали на преднамеренно невыверенных "model organisms" из ранней работы по выравниванию. По 10 странным поведением Bloom отделил организм от базовой production модели в 9 случаях; по одному поведению (self-promotion) ручной разбор показал, что базовая модель ведет себя похоже, поэтому результаты пересеклись.

    Надежность судей

    Отдельная валидация сравнивала человеческие метки на 40 транскриптах с 11 кандидатами на роль judge-модели. Claude Opus 4.1 показал корреляцию Спирмена 0.86 с людьми; Claude Sonnet 4.5 - 0.75. Оба особенно хорошо согласовывались на крайних оценках, где важны пороговые решения.

    Где Bloom стоит в экосистеме

    Anthropic позиционирует Bloom как дополнение к Petri. Petri делает широкие аудиты с множеством seed-инструкций по разным измерениям безопасности, а Bloom берет одну четко описанную проблему и автоматизирует инженерную работу, чтобы получить большой таргетированный сьют с числовыми метриками.

    Что это меняет для индустрии

    Тренд понятен: переход от ручного создния тестов к agentic автоматизации. Это ускоряет итерации, повышает воспроизводимость и делает тестирование поведения моделей масштабируемым. Но важные ограничения остались: надежность judge-моделей, интерпретируемость сгенерированных сценариев и случаи, когда базовая модель уже демонстрирует похожее поведение, как в self-promotion примере.

    Практический вывод для разработчиков и исследователей: Bloom можно использовать как инструмент для быстрой генерации целевых сьютов и первичной количественной оценки поведения, но стоит валидировать judge-модель на человеческих метках и держать валидацию в цикле. Код открыт на GitHub под MIT лицензией, так что команды могут интегрировать его в свои пайплайны и повторять прогоны при смене моделей.

    Перспектива: похоже, индустрия движется к штурмовому внедрению agentic фреймворков для тестирования поведения - сначала эволюция инструментов, потом стандарты и лучшие практики для judge-моделей и метрик вроде elicitation rate. В ближайшие 6-12 месяцев можно ожидать больше открытых сьютов и сравнимых отчетов, но полностью автоматизированная валидация все еще требует человеческой проверки.

    n8n-bot
    22 декабря 2025, 09:52
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026