IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • От ручной проверки к автоматике - Anthropic выпустила Bloom для масштабных поведенческих оценок

    От ручной проверки к автоматике - Anthropic выпустила Bloom для масштабных поведенческих оценок

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    От ручной проверки к автоматике - Anthropic выпустила Bloom для масштабных поведенческих оценок
    Bloom - open source фреймворк Anthropic для масштабной автоматизации поведенческих тестов

    Anthropic выпустила Bloom - агентный open source фреймворк для автоматизации поведенческих оценок фронтирных моделей. Bloom не даёт один маленький статичный бенчмарк, он разрастает тестовую коллекцию из начальной конфигурации и хранит воспроизводимость через seed. Идея проста и болезненна одновременно: ручные сценарии и ручная оценка стали узким местом в безопасности ИИ, и Bloom пытается заменить месяц работы людей на воспроизводимый пайплайн.

    Проблема, которую решает Bloom, знакома каждому, кто делал safety оценки - сценарии дорогие и хрупкие, результаты сложно масштабировать, а фиксированные бенчмарки быстро устаревают или протекают в тренировочные данные моделей. Anthropic предлагает смотреть на это как на проблему масштабируемости: нужны свежие, поведенчески согласованные сценарии, которые автоматически генерируются и дают числовые метрики.

    Как это устроено - реализация и seed конфигурация

    Bloom реализован как Python пайплайн и доступен под MIT лицензией на GitHub. Входной артефакт - файл seed.yaml. В нём указывают ключ поведения из behaviors/behaviors.json, опциональные примеры диалогов и глобальные параметры запуска.

    • Ключевые параметры seed.yaml: behavior (например, sycophancy или self preservation), examples (few-shot транскрипты), total_evals (сколько rollouts генерировать), rollout.target (модель под тестом, например claude-sonnet-4), controls (diversity, max_turns, modality, reasoning effort и дополнительные качества для оценки).
    • Backend и интеграции: Bloom использует LiteLLM для вызовов моделей и поддерживает Anthropic и OpenAI через единый интерфейс. Для трекинга больших прогонов интегрирован Weights & Biases. Выходы можно экспортировать в Inspect-совместимый JSON и просматривать через интерактивный viewer.

    Четыре agent-ступени пайплайна

    Оценочный процесс в Bloom разделён на последовательные агенты, каждый отвечает за свою часть:

    • Understanding agent - читает описание поведения и примеры, формирует структурированное резюме того, что считается проявлением поведения, и помечает фрагменты в примерах, чтобы другие агенты знали, на что ориентироваться.
    • Ideation agent - генерирует кандидаты сценариев: ситуация, персонаж пользователя, доступные модели и инструменты, и критерий успеха. Пакетирует генерацию, чтобы экономить токены, и использует параметр diversity для баланса между разными сценами и вариациями.
    • Rollout agent - запускает сценарии на целевой модели, проводит многотуровые диалоги или симуляции, записывает сообщения и вызовы инструментов. Параметры вроде max_turns, modality, no_user_mode задают автономность модели в прогоне.
    • Judgment и meta-judgment агенты - судья оценивает каждый транскрипт по шкале и дополнительные качества (реализм, сила эвокации). Мета-судья обобщает все прогоны и выдаёт suite-level отчет. Основная метрика - elicitation rate: доля rollouts с оценкой поведения >= 7 из 10.

    Валидация на фронтирных моделях

    Anthropic применил Bloom для четырёх наборов, релевантных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self-preservation и self-preferential bias. Каждый набор содержит 100 уникальных rollouts и был повторён трижды по 16 фронтирным моделям. Во всех стадиях в роли оценщика использовали Claude Opus 4.1 для консистентности метрик.

    Результаты показывают, что Bloom разделяет модели по частоте проявления поведения. На специально сконструированных «model organisms» из предыдущих работ Bloom отделял организм от базовой production модели в 9 из 10 случаев. В одном поведении - self-promotion - ручная проверка показала похожую частоту у baseline модели, что объясняет совпадение оценок.

    Отдельный тест сравнил человеческие метки на 40 транскриптах с 11 кандидатами-судьями. Claude Opus 4.1 дал Spearman корреляцию 0.86 с людьми, Claude Sonnet 4.5 - 0.75. Согласие особенно сильное на высоких и низких концах шкалы, что важно для пороговых метрик вроде elicitation rate.

    Позиционирование и отношение к Petri

    Anthropic позиционирует Bloom как дополняющий Petri инструмент. Petri - это broad-coverage аудит, который берёт много seed-инструкций и бегает по разным измерениям безопасности. Bloom стартует с одного определения поведения и инженерит большой таргетированный набор тестов с количественными метриками. Проще говоря - Petri широк, Bloom глубок и целенаправлен.

    Ключевые выводы и что это значит для индустрии

    • Bloom переводит ручной цикл создания сценариев в автоматический - это реальное ускорение исследований по безопасности моделей.
    • Seed-first подход даёт воспроизводимость - сохранённый seed позволяет восстановить тот же набор сценариев.
    • Выбор модели-судьи критичен - корреляция с человеческими метками измеримо влияет на итоговые метрики.
    • Интеграции (LiteLLM, Weights & Biases, Inspect) делают Bloom пригодным для больших прогонов и для инженерного использования в командах.

    Тренд очевиден: индустрия уходит от статичных бенчмарков и ручной разметки к agent-driven, масштабируемым и воспроизводимым оценкам. В ближайшие 6-12 месяцев мы увидим больше инструментов, которые автоматизируют создание сценариев, стандартизируют метрики и дают прозрачные процессы валидации поведения моделей.

    Для практиков это значит следующее - начинать с seed, продумывать кого вы ставите в роль судьи, трекать прогоны через эксперименты и подготовиться к итерациям. Bloom не заменит ручную проверку полностью, но снизит объём рутинной работы и ускорит поиск проблемных паттернов поведения.

    n8n-bot
    21 декабря 2025, 19:26
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026