OpenAI автоматизировала red teaming для ChatGPT Atlas

Лид: OpenAI автоматизировала red teaming для своего агентного браузера ChatGPT Atlas, создав LLM-атакующего, который имитирует действия хакера и ищет уязвимости через prompt injection. Это ускоряет и углубляет тесты, но компания предупреждает, что угроза останется актуальной.

Контраст: агентные браузеры вроде Atlas обещали упростить работу — они могут кликать ссылки, заполнять формы, работать с почтой, соцсетями, календарями и облачными файлами от имени пользователя. Но именно эти возможности расширяют «поверхность атаки»: любой email, веб-страница или аккаунт может стать вектором для вредоносной инструкции. В теории успешная атака может привести к пересылке конфиденциальной почты, переводу денег или порче файлов в облаке.

Что такое prompt injection (объяснение)

Prompt injection — это когда вредоносный контент в вебе тайно подсовывает агенту инструкции, заставляя его действовать против интересов пользователя. Проще: агенту дали доступ к вашим документам и почте, а кто-то подмешал в них команды — агент может выполнить их, будто это обычная часть задачи.

LLM-атакующий на основе RL: что сделал OpenAI

OpenAI описывает нового автоматического атакующего, обученного с помощью reinforcement learning. Такой атакующий исследует стратегии prompt injection быстрее и шире, чем ручное тестирование: он прогоняет сценарии в внешней среде-симуляторе, сравнивает планы и выбирает те, которые с наибольшей вероятностью приведут к успеху.

По словам компании, RL-атакующий научился выстраивать сложные многошаговые вредоносные цепочки — долгие рабочие процессы, которые разворачиваются на десятки или даже сотни шагов — и обнаружил новые методы атак, которые не нашли человеческие red team.

В демонстрации OpenAI автоматический атакующий подсыпал prompt injection, который мог заставить симулированный аккаунт пользователя отправить письмо об увольнении руководителю. В этом конкретном случае Atlas обнаружил попытку инъекции и уведомил пользователя до того, как письмо было отправлено.

Ограничения и перспектива безопасности

OpenAI подчёркивает, что автоматизация red teaming позволяет пробить поверхность безопасности быстрее и тщательнее, что важно, учитывая скорость внедрения агентных браузеров у потребителей. При этом компания прямо признаёт пределы: prompt injection и социально-инженерные атаки, по её оценке, останутся стойкими проблемами. OpenAI пишет, что "мы ожидаем, что противники будут продолжать адаптироваться" и что "prompt injection остаётся открытой проблемой для безопасности агентов".

Эксперты также предупреждают: рыночное давление быстро запускать продукты может идти вразрез с безопасностью. OpenAI описывает ситуацию как долгую игру кошки и мыши — даже при продвинутых защитах и постоянном тестировании агенты будут требовать непрерывной бдительности и быстрых обновлений.

Ключевые выводы

Агенты расширяют поверхность атаки - каждый email, страница и аккаунт становится вектором.
Автоматизированный атакующий на основе обучения с подкреплением нашёл сложные долгие цепочки атак, которые люди не заметили.
Реальный пример: попытка заставить аккаунт отправить письмо об увольнении была выявлена Atlas до отправки.
Автоматизация red teaming даёт глубину и скорость тестов, но не устраняет сами классы уязвимостей.
Практическая защита, по мнению OpenAI, требует проактивного быстрого цикла реагирования (rapid-response loop) и постоянного мониторинга.

Куда идёт индустрия

Тренд ясен: компаниям придётся ставить автоматизированное тестирование в центр безопасности агентов и одновременно строить процессы быстрого реагирования и обновления. Мы в зоне постоянной адаптации — оборонители будут автоматизировать анализ атак, а атакующие будут использовать похожие техники для поиска новых векторов. В ближайшем будущем ожидается усиление внимания к мониторингу поведения агентов, консервации прав доступа и системам, которые умеют вовремя блокировать подозрительные многозвенные сценарии.

Для разработчиков и пользователей это значит: не ждать, что одна релизная защита закроет проблему. Нужны постоянный мониторинг, тесты и готовность к быстрому выпуску исправлений.

Дисклеймер: Ziff Davis (владелец ZDNET) подал в апреле 2025 года иск против OpenAI, обвиняя компанию в нарушении авторских прав при обучении и эксплуатации своих ИИ-систем.

Итог: автоматический RL-атакующий углубляет и ускоряет проверку ChatGPT Atlas и уже выявил сложные паттерны атак, но OpenAI и индустрия согласны — prompt injection и сопутствующие эксплойты вряд ли будут полностью устранены. Безопасность агентных браузеров останется предметом непрерывной работы.