Исследователи из MIT-IBM Watson AI Lab представили новую архитектуру, которая увеличивает возможности больших языковых моделей (LLM) в понимании длинных текстов. Этот подход, известный как PaTH Attention, предлагает более точное отслеживание изменений состояния и последовательное рассуждение.
Проблемы существующих технологий
Современные модели, такие как RoPE, сталкиваются с ограничениями при работе с изменениями состояния в длинных текстах. Например, если в тексте описывается, как кошка взаимодействует с коробкой, важно учитывать порядок и изменения этих взаимодействий. Однако существующие механизмы внимания часто не справляются с этой задачей.
Как работает PaTH Attention
В отличие от RoPE, который фиксирует положение слов на основе их относительного расстояния, PaTH Attention использует адаптивный подход. Он представляет собой путь, состоящий из небольших преобразований, зависящих от данных. Это позволяет модели учитывать изменения значений слов в зависимости от их контекста и последовательности.
Эти преобразования основаны на математической операции, известной как отражение Хаусхолдера, которая динамически изменяет интерпретацию модели в зависимости от содержания каждого токена. Такой подход позволяет моделям не только учитывать расстояние между словами, но и их текущее значение и изменения.
Практическое применение и результаты
Команда исследователей протестировала PaTH Attention на различных задачах, включая синтетические тесты и реальные сценарии. Архитектура показала себя превосходно в задачах, связанных с отслеживанием информации, и превзошла другие методы в тестах на рассуждение.
Особенно впечатляющими оказались результаты PaTH Attention в задачах с длинным контекстом, где необходимо учитывать тысячи токенов. Модель не только продемонстрировала способность быть «осведомленной» о содержании, но и улучшила метрики производительности, такие как запутанность.
Будущее и перспективы
Исследователи также изучили возможность интеграции PaTH Attention с другим методом, известным как Forgetting Transformer (FoX), который позволяет моделям «забывать» менее актуальную информацию. Такой гибридный подход открывает новые горизонты для развития AI-систем.
Эта работа подчеркивает важность создания новых строительных блоков для AI, которые могут применяться в различных областях, таких как биология, анализ белков и ДНК. В будущем такие исследования могут оказать значительное влияние на развитие искусственного интеллекта.
