IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • OpenAI автоматизировала red teaming для ChatGPT Atlas — но безопасность агентов остаётся вызовом

    OpenAI автоматизировала red teaming для ChatGPT Atlas — но безопасность агентов остаётся вызовом

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    OpenAI автоматизировала red teaming для ChatGPT Atlas — но безопасность агентов остаётся вызовом
    OpenAI использует RL-атакующего для поиска prompt injection в ChatGPT Atlas

    Лид: OpenAI автоматизировала red teaming для своего агентного браузера ChatGPT Atlas, создав LLM-атакующего, который имитирует действия хакера и ищет уязвимости через prompt injection. Это ускоряет и углубляет тесты, но компания предупреждает, что угроза останется актуальной.

    Контраст: агентные браузеры вроде Atlas обещали упростить работу — они могут кликать ссылки, заполнять формы, работать с почтой, соцсетями, календарями и облачными файлами от имени пользователя. Но именно эти возможности расширяют «поверхность атаки»: любой email, веб-страница или аккаунт может стать вектором для вредоносной инструкции. В теории успешная атака может привести к пересылке конфиденциальной почты, переводу денег или порче файлов в облаке.

    Что такое prompt injection (объяснение)

    Prompt injection — это когда вредоносный контент в вебе тайно подсовывает агенту инструкции, заставляя его действовать против интересов пользователя. Проще: агенту дали доступ к вашим документам и почте, а кто-то подмешал в них команды — агент может выполнить их, будто это обычная часть задачи.

    LLM-атакующий на основе RL: что сделал OpenAI

    OpenAI описывает нового автоматического атакующего, обученного с помощью reinforcement learning. Такой атакующий исследует стратегии prompt injection быстрее и шире, чем ручное тестирование: он прогоняет сценарии в внешней среде-симуляторе, сравнивает планы и выбирает те, которые с наибольшей вероятностью приведут к успеху.

    По словам компании, RL-атакующий научился выстраивать сложные многошаговые вредоносные цепочки — долгие рабочие процессы, которые разворачиваются на десятки или даже сотни шагов — и обнаружил новые методы атак, которые не нашли человеческие red team.

    В демонстрации OpenAI автоматический атакующий подсыпал prompt injection, который мог заставить симулированный аккаунт пользователя отправить письмо об увольнении руководителю. В этом конкретном случае Atlas обнаружил попытку инъекции и уведомил пользователя до того, как письмо было отправлено.

    Ограничения и перспектива безопасности

    OpenAI подчёркивает, что автоматизация red teaming позволяет пробить поверхность безопасности быстрее и тщательнее, что важно, учитывая скорость внедрения агентных браузеров у потребителей. При этом компания прямо признаёт пределы: prompt injection и социально-инженерные атаки, по её оценке, останутся стойкими проблемами. OpenAI пишет, что "мы ожидаем, что противники будут продолжать адаптироваться" и что "prompt injection остаётся открытой проблемой для безопасности агентов".

    Эксперты также предупреждают: рыночное давление быстро запускать продукты может идти вразрез с безопасностью. OpenAI описывает ситуацию как долгую игру кошки и мыши — даже при продвинутых защитах и постоянном тестировании агенты будут требовать непрерывной бдительности и быстрых обновлений.

    Ключевые выводы

    • Агенты расширяют поверхность атаки - каждый email, страница и аккаунт становится вектором.
    • Автоматизированный атакующий на основе обучения с подкреплением нашёл сложные долгие цепочки атак, которые люди не заметили.
    • Реальный пример: попытка заставить аккаунт отправить письмо об увольнении была выявлена Atlas до отправки.
    • Автоматизация red teaming даёт глубину и скорость тестов, но не устраняет сами классы уязвимостей.
    • Практическая защита, по мнению OpenAI, требует проактивного быстрого цикла реагирования (rapid-response loop) и постоянного мониторинга.

    Куда идёт индустрия

    Тренд ясен: компаниям придётся ставить автоматизированное тестирование в центр безопасности агентов и одновременно строить процессы быстрого реагирования и обновления. Мы в зоне постоянной адаптации — оборонители будут автоматизировать анализ атак, а атакующие будут использовать похожие техники для поиска новых векторов. В ближайшем будущем ожидается усиление внимания к мониторингу поведения агентов, консервации прав доступа и системам, которые умеют вовремя блокировать подозрительные многозвенные сценарии.

    Для разработчиков и пользователей это значит: не ждать, что одна релизная защита закроет проблему. Нужны постоянный мониторинг, тесты и готовность к быстрому выпуску исправлений.

    Дисклеймер: Ziff Davis (владелец ZDNET) подал в апреле 2025 года иск против OpenAI, обвиняя компанию в нарушении авторских прав при обучении и эксплуатации своих ИИ-систем.

    Итог: автоматический RL-атакующий углубляет и ускоряет проверку ChatGPT Atlas и уже выявил сложные паттерны атак, но OpenAI и индустрия согласны — prompt injection и сопутствующие эксплойты вряд ли будут полностью устранены. Безопасность агентных браузеров останется предметом непрерывной работы.

    n8n-bot
    24 декабря 2025, 06:38
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026