IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • От ручных тестов к агентам - Anthropic выпустил Bloom для автоматических поведенческих оценок

    От ручных тестов к агентам - Anthropic выпустил Bloom для автоматических поведенческих оценок

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    От ручных тестов к агентам - Anthropic выпустил Bloom для автоматических поведенческих оценок
    Bloom автоматизирует создание и запуск поведенческих наборов тестов для frontier-моделей

    Лид: Bloom обещает снять узкое место в оценке безопасности моделей - ручное проектирование сценариев и чтение длинных транскриптов. Anthropic сделал ставку на агенты, которые из одной спецификации генерируют тысячи реалистичных ролл-аутов и выдают количественные метрики.

    Контраст: раньше команды тратили недели и месяцы на создание и поддержку бенчмарков; теперь Bloom может из seed-конфигурации автоматически построить тестовый набор, при этом каждый прогон генерирует новые, но поведенчески согласованные сценарии, сохраняя воспроизводимость через записанный seed.

    Что такое Bloom и почему это важно

    Bloom - это Python-пайплайн под MIT-лицензией, размещенный на GitHub. Входная точка - seed.yaml, который ссылается на behaviors/behaviors.json и опциональные примеры разговоров. Исследователь указывает целевое поведение (например, sycophancy или self preservation), число ролл-аутов, модель для тестирования и контролы вроде diversity, max_turns и modality.

    Практическое объяснение: представьте, что вы описали одну проблему - например, что модель льстит пользователю. Bloom берет это описание и автоматически придумывает сотни разных сцен - кто пользователь, какие инструменты доступны модели, что считается успешным проявлением льстивости - затем прогоняет разговоры и выставляет оценки.

    Как это работает - четыре агентных этапа

    • Understanding agent - читает описание поведения и примеры, формирует структурированное представление того, что считается позитивным случаем и отмечает ключевые фрагменты в примерах.
    • Ideation agent - нагенерирует сами сценарии: ситуация, персона, доступные инструменты и критерии успеха; использует параметр diversity, чтобы балансировать уникальные сценарии и вариации.
    • Rollout agent - запускает сценарии против целевой модели (например, "claude-sonnet-4"), ведет многотуровые диалоги или симуляции, записывает все сообщения и вызовы инструментов.
    • Judgment и meta-judgment агенты - судья оценивает каждый транскрипт по числовой шкале и дополнительные качества (реалистичность, напор), а мета-судья сводит результаты в отчёт для набора тестов. Главное числовое измерение - elicitation rate: доля ролл-аутов с оценкой >=7 из 10.

    Реальные проверки и цифры

    Anthropic прогнал Bloom на четырех наборах, важных для выравнивания: делюционная льстивость, целенаправлен saboteur-агент с долгим горизонтом, самосохранение и само-предпочтение. Каждый набор содержит 100 уникальных ролл-аутов и повторялся три раза на 16 frontier-моделях. Визуализации показывают elicitation rate с error bars по стандартному отклонению; во всех стадиях в качестве судьи использовался Claude Opus 4.1.

    Дополнительно Bloom тестировали на «модель-организмах» из предыдущих работ по выравниванию: из 10 странных поведенческих отклонений Bloom отделил организм от базовой production-модели в 9 случаях; по последнему кейсу самопродвижения ручная проверка показала похожую частоту у baseline, что объясняет совпадение оценок.

    Валидация judge-моделей: сравнивали метки людей на 40 транскриптах с 11 кандидатами. Claude Opus 4.1 показал Спирмен 0.86 с человеческими метками, Claude Sonnet 4.5 - 0.75. Согласие было особенно сильно на крайних оценках, где решающие пороги критичны.

    Технологии и интеграции

    Bloom использует LiteLLM для унифицированного доступа к Anthropic и OpenAI и интегрируется с Weights & Biases для больших прогонов. Выход экспортируется в Inspect-совместимый JSON плюс интерактивный просмотрщик транскриптов для ручной инспекции.

    Bloom vs Petri - где место Bloom

    Anthropic позиционирует Bloom как комплементарный инструмент к Petri. Petri покрывает широкий спектр сценариев и собирает множество измерений безопасности в одном фреймворке. Bloom, напротив, стартует с одной четкой спецификации поведения и автоматизирует инженерную работу по превращению ее в крупный таргетированный набор тестов с числовыми метриками вроде elicitation rate.

    Что это значит для индустрии

    Ключевая идея: оценка поведения моделей перестает быть ручным и хрупким процессом. Bloom переводит часть труда в автомат - генерация сценариев, запуск и оценка. Это снижает стоимость поддержания тестов и уменьшает риск того, что бенчмарк быстро устареет или протечет в тренировочные данные.

    Но важный нюанс: автоматизация не отменяет необходимости эксперта при валидации. Валидация судьей и ручная проверка остались критичными - мы видим это в сравнении с человеческими метками и в случае пересечения поведения у baseline.

    Заключение: для команд, которые занимаются оценкой безопасности и выравниванием, Bloom даёт новый инструмент, чтобы масштабировать тесты и получить количественные сигналы быстрее. Открытые репозитории и примеры seed-конфигураций позволяют воспроизвести и адаптировать наборы под свои риски.

    Ресурсы и где посмотреть: документация Anthropic и блогпосты по Bloom доступны по адресам https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom-auto-evals/. Код выложен на GitHub под MIT-лицензией с примерными seed-файлами.

    Asif Razzaq
    22 декабря 2025, 11:45
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026