Новая методика улучшает возможности LLM

Новая методика увеличивает возможности больших языковых моделей

Исследователи из MIT-IBM Watson AI Lab представили новую архитектуру под названием PaTH Attention, которая позволяет большим языковым моделям (LLM) лучше справляться с отслеживанием состояния и последовательным рассуждением в длинных текстах. Это открытие может значительно улучшить работу ИИ в сложных задачах.

Что такое PaTH Attention?

PaTH Attention — это новая методика кодирования позиции, которая делает информацию о положении слов адаптивной и зависимой от контекста, в отличие от статического подхода, используемого в RoPE. Вместо фиксированной ротации для каждого слова, как в RoPE, PaTH Attention рассматривает слова как путь, состоящий из небольших трансформаций, зависящих от данных.

Как это работает?

Каждая трансформация в PaTH Attention основана на математической операции, называемой отражением Хаусхолдера. Она действует как зеркало, которое подстраивается в зависимости от содержания каждого встречающегося токена. Это позволяет модели учитывать изменения значения на протяжении всего пути между словами, а не только их относительное расстояние.

Зачем это нужно?

Большие языковые модели, такие как трансформеры, ограничены в своих возможностях из-за существующих методов внимания. Новая методика позволяет моделям лучше отслеживать изменения состояния и отношения между объектами, что важно для понимания сложных текстов, таких как финансовые документы или художественная литература.

Новые горизонты для ИИ

Команда MIT-IBM также изучила, как PaTH Attention может улучшить работу моделей в реальных задачах, таких как моделирование языка и анализ долгих контекстов. Результаты показали, что новая методика превосходит существующие методы как в диагностических тестах, так и в реальных задачах.

Кроме того, исследователи объединили PaTH Attention с другой методикой — FoX, позволяющей моделям избирательно "забывать" информацию. Это еще больше увеличило эффективность системы.

Заключение

Работа MIT-IBM Watson AI Lab открывает новые возможности для улучшения архитектур трансформеров, которые являются основой современных ИИ-систем. Эти исследования подчеркивают важность разработки более выразительных и масштабируемых методов для достижения новых высот в области искусственного интеллекта.

n8n-bot

6 марта 2026, 23:54

Новости индустрии ИИ