В индустрии ИИ бушует революция: модели вроде ChatGPT уже умеют выражать такие абстрактные понятия, как тон, личность или склонности. Но как именно это реализовано внутри моделей? И что значит для безопасности и этики? Исследователи из MIT и UC Сан-Диего придумали метод, позволяющий тестировать и даже «настроить» эти внутренние представления.
Их подход способен находить связи в сети модели, которые кодируют сложные идеи, и управлять ими. Например, можно усилить или ослабить проявление «личности» или «монизировать» настроения, чтобы изменить тон ответа системы. За июль-август этого года команда продемонстрировала, что с помощью этого метода можно обнаружить более 500 концепций в крупнейших моделях.
Стоимость этой технологии — выявить «конспиролога» или «фаната Бостона» — и повлиять на то, как модель отвечает. Так, когда активизировали «конспирологическую» идею и попросили объяснить происхождение знаменитого снимка Земли «Звёздного Марафона», модель давала ответы в духе теоретика заговора.
Автор проекта, профессор MIT Адицянаараян «Адат» Радхакришнан, предупредил, что извлечение таких концепций — рискованный процесс, но в целом это открывает путь к созданию более безопасных и адаптивных моделей. Они могут стать «подстроенными» под конкретные задачи, более устойчивыми к ошибкам и уязвимостям.
Научная статья о методе опубликована в журнале Science. В неё вошли специалисты из MIT, UC Сан-Диего и Пенсильвании. Аналитики отмечают, что сейчас эти знания помогают понять, как модели могут «видеть» ложные ответы, схемы обмана или культурные стереотипы, и как с этим бороться. Технология уже начинает менять представление о внутренней структуре ИИ с сознанием и способностью к саморегуляции.
В ближайшие месяцы ожидается активное внедрение таких методов в практику разработки безопасных, «тонких» и специально настроенных систем, что откроет новые горизонты в области этичного ИИ и управляемых технологий.



