Исследователи из MIT и Университета Калифорнии в Сан-Диего нашли способ выявления скрытых концепций, таких как предвзятость и настроение, в больших языковых моделях (LLM). Это открытие может значительно улучшить безопасность и эффективность работы таких моделей, как ChatGPT и Claude.
Что такое скрытые концепции?
Современные LLM, обладая огромными объемами человеческих знаний, способны выражать не только фактическую информацию, но и более абстрактные концепции, такие как личности и настроения. Однако до сих пор не было понятно, как именно эти модели представляют такие концепции.
Как работает новый метод?
Команда разработала метод, который позволяет выявлять и манипулировать связями внутри модели, отвечающими за определенные концепции. Например, исследователи смогли усилить или ослабить такие концепции, как "социальный инфлюенсер" или "теоретик заговора", в ответах модели.
Практическое применение и риски
Метод показал свою эффективность на более чем 500 концепциях. Например, исследователи смогли сделать так, чтобы модель выдавала ответ в духе "теоретика заговора", объясняя происхождение известного снимка "Blue Marble". Несмотря на потенциальные риски, связанные с манипуляцией концепциями, метод может быть использован для улучшения безопасности моделей.
Будущее развития и применения
Исследователи считают, что их метод позволит создавать более специализированные и безопасные LLM. Понимание и управление скрытыми концепциями может помочь в создании моделей, которые будут более эффективно выполнять определенные задачи.
Исследование опубликовано в журнале Science, а его авторы — специалисты из MIT и Университета Калифорнии в Сан-Диего.
