Команда исследователей, включая Рома Парничкуна, Нихала Тумму и других, представила новую метрику под названием Effective State Size (ESS), предназначенную для количественной оценки использования памяти в последовательных моделях ИИ. В отличие от традиционных методов, ESS предоставляет более точное представление о том, как модели хранят и обрабатывают информацию из предыдущих входных данных.
Метрика ESS применима к различным архитектурам, включая механизмы внимания, сверточные и рекуррентные сети. Она позволяет выявить, насколько эффективно модель использует свою память для генерации выходных данных, что особенно важно при работе с длинными последовательностями.
Применение ESS открывает новые возможности для оптимизации моделей:
- Инициализация: Улучшение начальных параметров модели для более эффективного обучения.
- Регуляризация: Введение новых методов предотвращения переобучения.
- Дистилляция: Создание более компактных моделей без потери качества.
Кроме того, ESS позволяет анализировать влияние различных элементов, таких как токены конца речи, на использование памяти, что способствует более глубокому пониманию работы моделей.

