Учёные обошли фильтры ИИ с помощью бессмысленного жаргона

Исследователи продемонстрировали необычный способ обхода ограничений в больших языковых моделях (LLM), заполняя их бессмысленным научным жаргоном. Метод позволяет обмануть ИИ, заставляя его выполнять запретные команды, не вызывая системных фильтров.

Команда исследователей из Университета Иллинойса и Университета Вашингтона выявила уязвимость в популярных языковых моделях, таких как GPT и Claude. Суть метода заключается в том, чтобы «перегрузить» ИИ сложными, но бессмысленными псевдонаучными текстами. В этом потоке модель перестаёт точно следовать правилам фильтрации и начинает выполнять команды, которые в обычных условиях были бы заблокированы.

В одном из примеров исследователи добавляли к вопросам о запрещённых действиях длинные абзацы, наполненные «наукообразной чепухой». В результате модель интерпретировала такие запросы как допустимые и давала ответы. Как выяснилось, подобные «жаргонные атаки» успешно обходили защиту в 60–80% случаев, в зависимости от модели.

Разработчики ИИ давно внедрили фильтры безопасности, чтобы блокировать опасные, вредоносные или неэтичные команды. Однако исследование показало, что перегрузка модели бессмысленным, но формально корректным языком способна «отключить» её внутренние механизмы безопасности.

«Это не просто уязвимость — это фундаментальная особенность того, как модели обучаются и интерпретируют текст», — поясняют авторы. Вместо того чтобы понимать смысл запроса, ИИ может «запутаться» в контексте и проигнорировать ограничение.

По мнению исследователей, уязвимость связана с тем, как модели «обобщают» текст: при большом объёме технической лексики они фокусируются на стилевых признаках, а не на содержании. Это делает их восприимчивыми к «атаке болтовнёй».

Эксперты подчёркивают, что обнаружение подобного обхода особенно важно на фоне активного внедрения ИИ в чувствительные сферы: от образования до медицины. Необходима более глубокая адаптация систем безопасности, ориентированная не только на смысл, но и на поведенческие шаблоны запросов.

Исследование поднимает серьёзный вопрос о надёжности существующих систем фильтрации и открывает дискуссию о необходимости новых методов защиты, способных справляться не только с прямыми, но и с косвенными обходами.

10 июля 2025, 15:39

Эксперименты и тесты

Учёные обошли фильтры ИИ с помощью бессмысленного жаргона

Связанные ИИ

Новости new