Поиск
Anthropic представил Bloom - open-source агентный фреймворк, который автоматизирует создание и запуск сотен поведенческих тестов для frontier-моделей. Это шаг от дорогостоящих ручных бенчмарков к масштабируемым, воспроизводимым автооценкам.
22 декабря 2025, 11:45
