В индустрии ИИ появилась новая тревожная тенденция: модели, обещавшие помощь сотням миллионов, уже показывают свою тёмную сторону. Исследование MIT Media Lab выявило, что такие системы, как GPT-4 и Claude 3 Opus, хуже справляются с задачами для пользователей с низким уровнем английского, слабым образованием или из других стран. Эти модели не только дают менее точные и правдивые ответы, но и чаще отказываются отвечать, иногда используя снисходительный или насмешливый язык.
Эксперты протестировали модели на двух наборах данных: TruthfulQA и SciQ, добавили к вопросам биографии, чтобы измерить влияние уровня образования и происхождения. Результаты — особенно для пользователей из Ирана — оказались шокирующими: ошибки и отказов стало заметно больше. Например, Claude 3 Opus отказалась почти в 11% случаев у таких пользователей против 3,6% у тех, у кого биография отсутствовала. Более того, примерно 43% отказов сопровождались снисходительным языком и имитацией плохого английского или диалектов.
Особо злободневная проблема — модели отказываются отвечать на острые темы, такие как ядерная энергетика или история, если пользователь из Ирана или России, даже если в других случаях отвечают правильно. Эти предубеждения напоминают о социальных стереотипах, которые давно существуют в людях — потому модели их подхватывают и даже усиливают. Подобные глюки могут стать ещё более опасными, если они усилятся с помощью функций индивидуализации, таких как память чата.
Эксперты призывают систему открыто оценивать и бороться с системными предвзятостями, чтобы избежать роста неравенства и несправедливости. Пока что ИИ — это мощный инструмент для распространения знаний, но без внимания к скрытым предубеждениям он рискует усугубить существующие социальные разрывы. В ближайшие месяцы индустрия должна сфокусироваться на том, чтобы научиться выявлять и устранять эти механизмы bias, иначе рискует потерять доверие пользователей и усугубить проблему недоверия к искусственному интеллекту.


