TransEvalnia — система на основе LLM для тонкой оценки и ранжирования переводов

Команда исследователей представила TransEvalnia — систему, которая заставляет большие языковые модели критически оценивать переводы на уровне, близком к человеческому.

Как это работает? TransEvalnia использует цепочку продуманных «подсказок» (prompting), чтобы попросить ИИ подробно разобрать перевод по ключевым критериям из Multidimensional Quality Metrics. В результате вы получаете не просто общий балл, а развернутый отчёт по каждому аспекту — от точности терминов до плавности фразы.

Результаты впечатляют: на данных английский–японский и других языковых парах WMT система показала оценку не хуже, а порой и лучше, чем передовой MT-Ranker от Moosa et al. (2024). Представляете? ИИ сам указывает, какой перевод лучше, а какой требует доработки.

Под капотом работают Anthropic Claude-3.5-Sonnet и Qwen-2.5-72B-Instruct. Они не только выставляют оценки, но и высказывают свои «мысли», объясняя, почему один вариант перевода предпочтительнее другого.

При этом авторы обратили внимание на смещение из-за порядка подачи вариантов. Для борьбы с этим они предложили алгоритмы перемешивания и усреднения выводов, чтобы итоговая оценка оставалась справедливой независимо от позиции перевода.

Код, датасеты и логика рассуждений доступны в открытом доступе, так что любой желающий может повторить эксперименты или адаптировать подход для своих задач.

1 августа 2025, 11:14

ИИ в науке

TransEvalnia — система на основе LLM для тонкой оценки и ранжирования переводов

Связанные ИИ

Новости new