Когда мы переписываемся в чатах или оставляем комментарии в соцсетях, зачастую между строк скрываются эмоции, скрытая позиция или едкая ирония. Новое исследование из Scientific Reports проверило, смогут ли современные языковые модели (LLM) «прочитать» эти нюансы так же точно, как человек.
Что проверяли?
Учёные взяли семь LLM — от GPT‑4 до Gemini и Llama‑3.1‑70B — и попросили их оценить 100 отобранных фрагментов текста. Задача была непростая: определить тональность (позитив, негатив), политические взгляды автора, силу эмоционального заряда и даже сарказм.
Главные находки
Оказалось, что модели в среднем не уступают людям в распознавании тональности и политической окраски высказываний. GPT‑4, например, проявил большую стабильность при определении политических взглядов, чем люди-эксперты. Что касается эмоций, LLM умело отличали лёгкое раздражение от ярости, хоть и слегка «сгладили» самые сильные чувства.
С сарказмом дела обстояли одинаково сложно и для людей, и для машин: ни одна модель не смогла уверенно победить в этой категории.
Зачем это важно?
Представьте, сколько времени экономят социологи и инструменты фактчекинга: анализ сотен тысяч постов вручную может занять месяцы. LLM позволяют получать оперативные результаты — критично во время выборов, кризисов или вспышек массовых волнений.
При этом сохраняются вопросы прозрачности и справедливости: кому доверять, если машина «смотрит» на политику по‑своему? И как гарантировать единообразие оценок при разных формулировках одного и того же вопроса?
Что дальше?
Исследователи планируют проверить, насколько стабильны выводы моделей при минимальных изменениях текста и условиях запроса. Это ключевой шаг перед тем, как LLM станут полноправными «напарниками» учёных, журналистов и специалистов по безопасности.
