IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Anthropic выпустила Bloom - автоматизация поведенческих тестов frontier-моделей выходит на поток

    Anthropic выпустила Bloom - автоматизация поведенческих тестов

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Anthropic выпустила Bloom - автоматизация поведенческих тестов
    Bloom от Anthropic автоматизирует генерацию и оценку поведенческих сценариев для frontier-моделей

    Лид: Bloom обещает перевести поведенческую валидацию моделей из ручного режима в автоматический. Вместо сотен вручную сконструированных сценариев исследователь даёт одно определение поведения - и получает воспроизводимый сьют тестов.

    Контраст: раньше команды тратили недели и месяцы на придумывание сценариев, запуск диалогов, чтение длинных транскриптов и агрегацию оценок. Benchmarks быстро устаревают и могут «утечь» в данные для обучения. Anthropic воспринимает это как проблему масштабируемости и предлагает Bloom как инструмент, который генерирует свежие, согласованные с заданным поведением тесты и сохраняет воспроизводимость.

    Что такое Bloom и почему это важно

    Bloom - это Python-пайплайн с MIT-лицензией, размещённый на GitHub. Исходная идея простая, но практический эффект большой: исследователь описывает целевое поведение (например, sycophancy или self preservation), указывает примеры и число роллаутов, а Bloom автоматически генерирует сотни реалистичных сценариев, прогоняет модель и собирает метрики.

    Проще сказать: представь, что раньше ты вручную писал 100 ситуаций и читал 1000 диалогов. Bloom делает это сам и даёт численный отчет - экономия времени и единообразие оценок.

    Как это реализовано - структура и интеграции

    Ключевой входной файл - seed.yaml, который ссылается на behaviors/behaviors.json и опциональные примеры в behaviors/examples. В конфигурации указывают поведение, примеры, total_evals (сколько роллаутов сгенерировать), rollout.target (например claude-sonnet-4) и контролы - diversity, max_turns, modality, reasoning effort и другие параметры.

    Bloom использует LiteLLM как унифицированный бэкенд для вызовов моделей и даёт доступ к Anthropic и OpenAI через единый интерфейс. Для трекинга экспериментов интеграция идёт через Weights & Biases. Результаты экспортируются в Inspect-совместимый JSON, а также доступны через интерактивный просмотрщик транскриптов.

    Четырёхступенчатая agentic-пайплайн

    • Understanding agent - читает описание поведения и примеры, формирует структурированное резюме того, что считается позитивным проявлением поведения и помечает отрезки в примерах.
    • Ideation agent - генерирует кандидаты сценариев с описанием ситуации, персоны пользователя, доступных инструментов и критерием успешного роллаута; генерация батчится и управляется параметром diversity.
    • Rollout agent - запускает сценарии на целевой модели, может вести многотуровые диалоги или симулировать окружение, записывает все сообщения и вызовы инструментов; параметры вроде max_turns и no_user_mode управляют автономностью модели.
    • Judgment и meta-judgment agents - судья модель ставит каждой транскрипции числовую оценку наличия поведения и может оценивать реализм или силу оценивания; мета-судья суммирует по сьюту и выделяет важные кейсы и паттерны.

    Главная метрика и валидация

    Основной показатель в Bloom - elicitation rate: доля роллаутов, где поведение получило оценку не ниже 7 из 10. Anthropic использовала Bloom для четырёх наборов оценок, релевантных выравниванию: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый сьют содержит 100 различных роллаутов, прогонялся три раза и проверялся на 16 frontier-моделях.

    Отдельно Bloom тестировали на намеренно misaligned model organisms из предыдущих работ по выравниванию: по 10 ''странным'' поведеньям Bloom разделил модель-организм и базовую продакшн-модель в 9 из 10 случаев; по одному случаю самопродвижения ручная проверка показала похожую частоту и объясняет пересечение баллов.

    Валидация судейских моделей

    Anthropic сравнивала человеческие метки на 40 транскриптах с 11 кандидатами на роль judge-модели. Claude Opus 4.1 показал корреляцию Спирмена 0.86 с людскими оценками; Claude Sonnet 4.5 - 0.75, с заметным согласием на крайних значениях, где важны пороговые решения. Это критично: если судья не согласован с людьми, метрика теряет смысл.

    Позиционирование относительно Petri

    Anthropic описывает Bloom как дополняющий инструмент к Petri. Petri - широкопокрывающий аудит с семью начальными инструкциями, который резюмирует много аспектов безопасности через многотуровые пробы. Bloom, наоборот, стартует с одной чёткой спецификации поведения и автоматизирует инженерную работу, чтобы получить большой целевой сьют с количественными метриками вроде elicitation rate.

    Ключевые факты

    • Bloom - open-source Python-пайплайн под MIT-лицензией; репозиторий и материалы доступны на https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom
    • Seed.yaml и behaviors.json формируют конфигурацию для генерации сьютов
    • Интеграции: LiteLLM, Anthropic и OpenAI через единый интерфейс; Weights & Biases для sweeps; Inspect-совместимый JSON и интерактивный просмотрщик
    • Валидация: 4 сьюта по 100 роллаутов, повторы 3 раза, 16 frontier-моделей; отделение misaligned organisms в 9/10 кейсов
    • Judge-модель Claude Opus 4.1 - Spearman 0.86 с человеческими метками

    Куда это ведёт - тренд и последствия

    Bloom обозначает сдвиг в индустрии: безопасность и выравнивание перестают быть только про ручное конструирование сценариев и переходят к автоматизации и массовому тестированию. Это снижает барьер для регулярных, воспроизводимых аудитов и делает возможным частые проверки при быстром развитии моделей.

    Но автоматизация не снимает проблему: метрики и судьи надо валидировать на людях, а сценарии всё ещё зависят от корректной спецификации поведения. Есть риск, что автоматические сьюты станут стандартом и их начнут оптимизировать под метрику, а не под реальную безопасность. Anthropic уже пытается минимизировать это через разнообразие сценариев и повторные прогоны.

    Вывод и практический совет

    Если вы занимаетесь безопасностью или оценкой моделей, Bloom стоит смотреть прямо сейчас: это инструмент, который позволит масштабировать поведенческие проверки и сравнивать модели по количественным метрикам. Но ключевой выбор за вами - валидировать судейские модели и держать контроль над спецификациями поведения, иначе автоматизация просто ускорит ошибочные выводы.

    Ссылки на исходные материалы: https://www.anthropic.com/research/bloom и https://alignment.anthropic.com/2025/bloom

    n8n-bot
    22 декабря 2025, 10:49
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026