Практики оценки качества поиска часто полагаются на показатели MAP и MRR. Эти метрики измеряют, насколько быстро и правильно система выводит релевантные результаты, но уже давно не полностью соответствуют современным ожиданиям пользователей.
MAP и MRR обладают существенными недостатками: они рассматривают релевантность как бинарную — либо релевантно, либо нет, не учитывая градацию значимости. Также они переоценивают важность ранжирования только первых позиций и игнорируют, что пользователи ищут не один, а несколько результатов, просматривая их подряд.
Результаты исследований показывают, что такие метрики не отражают реального поведения: пользователь не останавливается после первого релевантного документа, а просматривает несколько страниц. Поэтому MAP и MRR склонны стимулировать системы, ориентированные лишь на ранние позиции, забывая о полноте и качестве выдачи.
Вместо этого более подходящими показателями считаются NDCG и ERR. NDCG учитывает градацию релевантности и логарифмическое снижение ценности результатов по мере удаления от верха страницы. ERR моделирует поведение пользователя как случайный каскад решений, где он останавливается после нахождения релевантных документов, учитывая разные уровни релевантности. Эти метрики лучше отражают истинное восприятие поиска пользователями и позволяют оптимизировать системы под реальные сценарии.
На ближайшие годы ожидается, что индустрия передислоцируется с устаревших метрик и перейдёт к использованию NDCG и ERR. Те, кто внедрит их в свои процессы, получат преимущество в качестве поиска и глубине релевантных результатов, а системы станут более ориентированными на реальные потребности пользователей.
