Исследователи из MIT-IBM Watson AI Lab представили новую архитектуру под названием PaTH Attention, которая позволяет большим языковым моделям (LLM) лучше справляться с отслеживанием состояния и последовательным рассуждением в длинных текстах. Это открытие может значительно улучшить работу ИИ в сложных задачах.
Что такое PaTH Attention?
PaTH Attention — это новая методика кодирования позиции, которая делает информацию о положении слов адаптивной и зависимой от контекста, в отличие от статического подхода, используемого в RoPE. Вместо фиксированной ротации для каждого слова, как в RoPE, PaTH Attention рассматривает слова как путь, состоящий из небольших трансформаций, зависящих от данных.
Как это работает?
Каждая трансформация в PaTH Attention основана на математической операции, называемой отражением Хаусхолдера. Она действует как зеркало, которое подстраивается в зависимости от содержания каждого встречающегося токена. Это позволяет модели учитывать изменения значения на протяжении всего пути между словами, а не только их относительное расстояние.
Зачем это нужно?
Большие языковые модели, такие как трансформеры, ограничены в своих возможностях из-за существующих методов внимания. Новая методика позволяет моделям лучше отслеживать изменения состояния и отношения между объектами, что важно для понимания сложных текстов, таких как финансовые документы или художественная литература.
Новые горизонты для ИИ
Команда MIT-IBM также изучила, как PaTH Attention может улучшить работу моделей в реальных задачах, таких как моделирование языка и анализ долгих контекстов. Результаты показали, что новая методика превосходит существующие методы как в диагностических тестах, так и в реальных задачах.
Кроме того, исследователи объединили PaTH Attention с другой методикой — FoX, позволяющей моделям избирательно "забывать" информацию. Это еще больше увеличило эффективность системы.
Заключение
Работа MIT-IBM Watson AI Lab открывает новые возможности для улучшения архитектур трансформеров, которые являются основой современных ИИ-систем. Эти исследования подчеркивают важность разработки более выразительных и масштабируемых методов для достижения новых высот в области искусственного интеллекта.
