Исследователи из MIT и Университета Калифорнии в Сан-Диего представили новый метод, который позволяет выявлять и манипулировать скрытыми концепциями в крупных языковых моделях, таких как ChatGPT и другие. Это открытие может значительно улучшить безопасность и производительность таких моделей.
Как выявить скрытые концепции?
Команда учёных разработала метод, способный находить связи внутри модели, которые кодируют интересующие концепции. Они могут усиливать или ослаблять определённые концепции в ответах, которые модель генерирует. Например, исследователи смогли идентифицировать и усилить концепцию "теоретика заговора", что позволяет модели отвечать в соответствующем тоне.
Зачем это нужно?
Новый подход позволяет выявлять более 500 разных концепций, таких как "страх брака" или "фанат Бостона". Это помогает не только понимать внутренние механизмы работы языковых моделей, но и управлять их ответами, делая их более точными и безопасными.
Преимущества и риски
Исследователи признают, что извлечение определённых концепций может нести риски. Однако, в целом, метод предоставляет возможность улучшить модели, устранив потенциальные уязвимости и усилив полезные свойства.
Технология в действии
Метод основан на рекурсивной машинной функции (RFM), которая помогает выявлять числовые паттерны, связанные с конкретными концепциями внутри модели. Это позволяет быстро обнаруживать и минимизировать уязвимости, а также усиливать нужные черты, такие как "краткость" или "логичность" в ответах модели.
Работа команды была поддержана Национальным научным фондом, Фондом Симона и другими организациями. Код метода доступен для общественности, что открывает возможности для дальнейших исследований и разработок в области ИИ.
