Команда исследователей представила TransEvalnia — систему, которая заставляет большие языковые модели критически оценивать переводы на уровне, близком к человеческому.
Как это работает? TransEvalnia использует цепочку продуманных «подсказок» (prompting), чтобы попросить ИИ подробно разобрать перевод по ключевым критериям из Multidimensional Quality Metrics. В результате вы получаете не просто общий балл, а развернутый отчёт по каждому аспекту — от точности терминов до плавности фразы.
Результаты впечатляют: на данных английский–японский и других языковых парах WMT система показала оценку не хуже, а порой и лучше, чем передовой MT-Ranker от Moosa et al. (2024). Представляете? ИИ сам указывает, какой перевод лучше, а какой требует доработки.
Под капотом работают Anthropic Claude-3.5-Sonnet и Qwen-2.5-72B-Instruct. Они не только выставляют оценки, но и высказывают свои «мысли», объясняя, почему один вариант перевода предпочтительнее другого.
При этом авторы обратили внимание на смещение из-за порядка подачи вариантов. Для борьбы с этим они предложили алгоритмы перемешивания и усреднения выводов, чтобы итоговая оценка оставалась справедливой независимо от позиции перевода.
Код, датасеты и логика рассуждений доступны в открытом доступе, так что любой желающий может повторить эксперименты или адаптировать подход для своих задач.
