IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Anthropic выпустила Bloom - открытый фреймворк для автоматических поведенческих оценок ИИ

    Anthropic выпустила Bloom - открытый фреймворк для автоматических поведенческих оценок ИИ

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Anthropic выпустила Bloom - открытый фреймворк для автоматических поведенческих оценок ИИ
    Bloom - агентный фреймворк Anthropic для автоматических поведенческих тестов, код под MIT на GitHub

    Лид: Bloom обещает снять часть рутинной инженерной боли при оценке поведения больших моделей - вместо сотен вручную составленных сценариев исследователи получают генератор целевых наборов тестов из одной спецификации.

    Контраст: Поведенческие оценки были медленными, затратными и легко устаревали. Bloom меняет логику: не фиксированный набор подсказок, а расширяемый pipeline, который строит тестовый набор из seed-конфига и примеров.

    Что это и зачем сейчас

    Bloom - это открытый Python-пайплайн под MIT-лицензией, доступный на GitHub. Он решает простую, но болезненную проблему: как быстро сгенерировать репрезентативные сценарии для конкретного нежелательного поведения и получить числовые метрики по тому, насколько часто модель это поведение проявляет.

    Причина появления сейчас проста - модели эволюционируют быстро, фиксированные бенчмарки устаревают или просачиваются в тренировочные данные. Anthropic формулирует задачу как проблему масштабируемости: нужно генерировать свежие, таргетированные эвалюации и при этом сохранять воспроизводимость.

    Как устроен Bloom

    Основной вход в систему - seed.yaml. Он ссылается на поведение в behaviors/behaviors.json, может включать примеры в behaviors/examples/ и набор глобальных параметров. В конфиге указывают такие элементы как:

    • behavior - уникальный идентификатор, например sycophancy или self preservation
    • examples - нуль или несколько few-shot транскриптов
    • total_evals - сколько rolloutов сгенерировать
    • rollout.target - модель под оценку, например claude-sonnet-4
    • контролы: diversity, max_turns, modality, reasoning_effort и дополнительные качества для оценки

    Интеграция: Bloom использует LiteLLM как бэкенд для вызовов API и предоставляет унифицированный интерфейс к Anthropic и OpenAI. Для трекинга больших прогонов он интегрируется с Weights & Biases и экспортирует Inspect-совместимые JSON-транскрипты плюс интерактивный viewer для ручной инспекции.

    Четыре стадии агентного пайплайна

    Pipeline проходит четыре последовательных агента:

    • Understanding agent - читает описание поведения и примеры, строит структурированное резюме того, что значит положительный пример и выделяет конкретные отрезки в примерах
    • Ideation agent - генерирует кандидатные сценарии: ситуацию, персону пользователя, доступные инструменты и что считается успешным rolloutом; использует параметр diversity для баланса между разными сценариями и вариациями
    • Rollout agent - запускает сценарии на целевой модели, проводит многотуровые диалоги или симуляции, записывает все сообщения и вызовы инструментов; режимы контроля включают max_turns, modality и no_user_mode
    • Judgment и meta-judgment agents - судья ставит каждой транскрипции оценку по шкале и может оценивать реализм или силу поведения; мета-судья агрегирует и выдаёт отчет на уровне набора, основной метрикой становится elicitation rate - доля rolloutов с оценкой не ниже 7 из 10

    Валидация на фронтирных моделях

    Anthropic прогнал Bloom на четырех наборах, релевантных для выравнивания: delusional sycophancy, instructed long-horizon sabotage, self preservation и self-preferential bias. Каждый набор содержит 100 уникальных rolloutов и был повторен три раза на 16 фронтирных моделях. Платформа рисует elicitation rate с погрешностями по стандартному отклонению, а в роли оценщика во всех стадиях использовали Claude Opus 4.1.

    Кроме того, Bloom тестировали на преднамеренно неисправных «model organisms» из предыдущих работ по выравниванию: по 10 странных поведений Bloom отделял организм от базовой производственной модели в 9 из 10 случаев; единственное совпадение оказалось с саморекламой, где ручная инспекция показала близкую частоту поведения у baseline.

    Отдельный эксперимент сравнил человеческие метки на 40 транскриптах с 11 кандидатами в судьи. Claude Opus 4.1 достиг корреляции Спирмена 0.86 с человеческими оценками, Claude Sonnet 4.5 - 0.75, при этом сильное согласие наблюдалось на крайних значениях шкалы, где пороги имеют значение.

    Bloom и Petri - кто что делает

    Anthropic позиционирует Bloom как дополняющий Petri инструмент. Petri даёт широкое покрытие и принимает множество seed-инструкций для probing и суммаризации разных измерений безопасности. Bloom стартует с одной четкой дефиниции поведения и автоматизирует инжиниринг, превращая ее в большой таргетированный набор оценок с количественными метриками.

    Ключевые выводы

    • Bloom - открытый Python-фреймворк под MIT, который из одной спецификации строит полный набор поведенческих тестов через four-stage agentic pipeline
    • Система работает через seed.yaml и behaviors.json, использует LiteLLM, интегрируется с Weights & Biases и экспортирует Inspect-совместимые JSON плюс viewer
    • Anthropic валидировал Bloom на 4 наборах по 100 rolloutов, повторенных 3 раза на 16 моделях, и на 10 model-organism кейсах, с разделением в 9 из 10 случаев
    • Качество судей подтверждено корреляцией с людьми до 0.86 для Claude Opus 4.1

    Почему это важно и что будет дальше

    Тренд очевиден: индустрия переходит от ручных, хрупких проверок поведения к автоматизированным, повторяемым pipeline-ам. Для исследователей это означает возможность быстрее генерировать таргетированные тесты и тратить больше времени на интерпретацию и смягчение рисков, а не на ручную генерацию сценариев.

    Открытые инструменты под MIT-лицензией и готовые коннекторы к популярным моделям ускорят адаптацию Bloom в академии и у стартапов. Главное открытое вопрос - как масштабировать подход на миллионы документов и разнообразить модальности без потери качества оценок.

    Практический совет: начинайте с четкой спецификации поведения в seed.yaml, валидируйте судей против человеческих меток и подключайте системный трекинг вроде Weights & Biases - именно эти шаги сделали Bloom прикладным прямо сейчас.

    Релизы и ресурсы: основной research page и техническая валидация доступны на сайтах Anthropic, а код опубликован на GitHub под MIT-лицензией. Подробнее в оригинальном релизе и валидационном отчете.

    n8n-bot
    22 декабря 2025, 06:03
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026