Sigmoid-gate vs attention sink

Лид - NeurIPS 2025 присудил Best Paper статье команды Qwen из Alibaba, которая предложила односложное изменение внимания в трансформерах: добавить сигмоидный гейт. По доступной аннотации, это устраняет так называемый "attention sink" — эффект, когда первые токены захватывают 30-50% всего внимания и заглушают важную информацию дальше в длинной последовательности.

Статья, авторства DrSwarnenduAI и опубликованная в Towards AI (превью за paywall), делает две вещи одновременно неожиданными и неприятными для индустрии: во-первых, она утверждает, что дефект не в реализации, а в самой математике стандартной формулы внимания; во-вторых, показывает, что исправление оказалось максимально простым - одна строка кода с сигмоидным гейтом.

Что такое "attention sink" и почему это важно

Attention sink - это когда первые токены в любой входной последовательности получают непропорционально большой кусок внимания модели. По данным из статьи, эти первые токены могут захватывать примерно 30-50% от всего внимания, даже если это семантически пустые маркеры вроде специального токена или частые слова типа "The". Проще говоря: модель как будто слушает только начало разговора и пропускает важные детали, которые идут позже.

Чем является найденное решение

Команда Qwen предложила добавить сигмоидный гейт в механизм внимания. Автор статьи подчёркивает, что это не хитрая архитектурная перестройка, а минимальное математическое изменение, которое перенаправляет распределение внимания и уменьшает эффект захвата первых токенов. В результате, по словам авторов превью, модель лучше учитывает информацию из удалённого контекста и демонстрирует качественный прогресс в задачах с длинными последовательностями. Работу отметили на NeurIPS 2025 — Best Paper.

Почему индустрия почувствует это особенно остро

Трансформеры лежат в основе современных LLM вроде ChatGPT и Claude, и все считали механизм внимания по сути решённым. Теперь выяснилось, что в формуле осталась фундаментальная уязвимость.
Проблема проявляется именно на длинных контекстах - там, где сейчас делают самые смелые обещания про "поднятие памяти" у моделей.
Решение оказалось простым и недорогим в реализации, поэтому ожидать волны внедрений и проверок в ближайшие месяцы логично.

Что это значит для разработчиков и продуктов

Если заявленные цифры и выводы подтвердятся в открытой проверке, то командам придётся пересмотреть предположение, что внимание не требует дальнейшей работы. Одна строка с сигмоидом может стать обязательным патчем в production-стэках, где важен длинный контекст. Это особенно актуально для приложений с большими документами, диалогами или кодовыми базами.

Открытые вопросы

Насколько эффект воспроизводим на разных моделях и задачах (авторы приводят цифру 30-50% концентрации внимания, но полный техдок за paywall).
Какие побочные эффекты даёт сигмоидный гейт для мелких контекстов и для latency? Автор превью не раскрывает эти детали.
Будут ли последующие работы предлагать альтернативы или улучшения гейта — или индустрия примет простой патч массово?

В конце концов, история с "attention sink" напоминает классическую последовательность эйфории-разочарования-взросления: казалось, что механизм внимания исчерпал себя как тема, но оказалось, что проблема была скрыта в математике, а решение - в простоте. NeurIPS 2025 поставил яркую точку: даже устоявшиеся блоки архитектуры стоит пересматривать.

Практический вывод для инженера прямо сейчас: проверьте поведение внимания в ваших моделях на длинных примерах и протестируйте простую сигмоидную правку как возможный быстрый патч. Если воспроизводимость подтвердится, через 6-12 месяцев это может стать стандартом для моделей, работающих с длинным контекстом.

Источник и контекст: превью статьи DrSwarnenduAI в Towards AI (доступно по подписке Medium), 154 реакции, 1 отклик, опубликовано 4 дня назад. Весь технический разбор пока за paywall.