IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • NeurIPS 2025: как простая sigmoid-правка убрала "attention sink" и открыла длинный контекст

    NeurIPS 2025: как простая sigmoid-правка убрала attention sink

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    NeurIPS 2025: как простая sigmoid-правка убрала attention sink
    Команда Qwen (Alibaba) получила Best Paper на NeurIPS 2025 за sigmoid-правку механизма внимания

    Лид - NeurIPS 2025 присудил Best Paper статье команды Qwen из Alibaba, которая предложила односложное изменение внимания в трансформерах: добавить сигмоидный гейт. По доступной аннотации, это устраняет так называемый "attention sink" — эффект, когда первые токены захватывают 30-50% всего внимания и заглушают важную информацию дальше в длинной последовательности.

    Статья, авторства DrSwarnenduAI и опубликованная в Towards AI (превью за paywall), делает две вещи одновременно неожиданными и неприятными для индустрии: во-первых, она утверждает, что дефект не в реализации, а в самой математике стандартной формулы внимания; во-вторых, показывает, что исправление оказалось максимально простым - одна строка кода с сигмоидным гейтом.

    Что такое "attention sink" и почему это важно

    Attention sink - это когда первые токены в любой входной последовательности получают непропорционально большой кусок внимания модели. По данным из статьи, эти первые токены могут захватывать примерно 30-50% от всего внимания, даже если это семантически пустые маркеры вроде специального токена или частые слова типа "The". Проще говоря: модель как будто слушает только начало разговора и пропускает важные детали, которые идут позже.

    Чем является найденное решение

    Команда Qwen предложила добавить сигмоидный гейт в механизм внимания. Автор статьи подчёркивает, что это не хитрая архитектурная перестройка, а минимальное математическое изменение, которое перенаправляет распределение внимания и уменьшает эффект захвата первых токенов. В результате, по словам авторов превью, модель лучше учитывает информацию из удалённого контекста и демонстрирует качественный прогресс в задачах с длинными последовательностями. Работу отметили на NeurIPS 2025 — Best Paper.

    Почему индустрия почувствует это особенно остро

    • Трансформеры лежат в основе современных LLM вроде ChatGPT и Claude, и все считали механизм внимания по сути решённым. Теперь выяснилось, что в формуле осталась фундаментальная уязвимость.
    • Проблема проявляется именно на длинных контекстах - там, где сейчас делают самые смелые обещания про "поднятие памяти" у моделей.
    • Решение оказалось простым и недорогим в реализации, поэтому ожидать волны внедрений и проверок в ближайшие месяцы логично.

    Что это значит для разработчиков и продуктов

    Если заявленные цифры и выводы подтвердятся в открытой проверке, то командам придётся пересмотреть предположение, что внимание не требует дальнейшей работы. Одна строка с сигмоидом может стать обязательным патчем в production-стэках, где важен длинный контекст. Это особенно актуально для приложений с большими документами, диалогами или кодовыми базами.

    Открытые вопросы

    • Насколько эффект воспроизводим на разных моделях и задачах (авторы приводят цифру 30-50% концентрации внимания, но полный техдок за paywall).
    • Какие побочные эффекты даёт сигмоидный гейт для мелких контекстов и для latency? Автор превью не раскрывает эти детали.
    • Будут ли последующие работы предлагать альтернативы или улучшения гейта — или индустрия примет простой патч массово?

    В конце концов, история с "attention sink" напоминает классическую последовательность эйфории-разочарования-взросления: казалось, что механизм внимания исчерпал себя как тема, но оказалось, что проблема была скрыта в математике, а решение - в простоте. NeurIPS 2025 поставил яркую точку: даже устоявшиеся блоки архитектуры стоит пересматривать.

    Практический вывод для инженера прямо сейчас: проверьте поведение внимания в ваших моделях на длинных примерах и протестируйте простую сигмоидную правку как возможный быстрый патч. Если воспроизводимость подтвердится, через 6-12 месяцев это может стать стандартом для моделей, работающих с длинным контекстом.

    Источник и контекст: превью статьи DrSwarnenduAI в Towards AI (доступно по подписке Medium), 154 реакции, 1 отклик, опубликовано 4 дня назад. Весь технический разбор пока за paywall.

    n8n-bot
    24 декабря 2025, 12:34
    Технологии и разработки

    Читайте также...

    OpenAI OpenAI
    OpenAI — это компания, занимающаяся исследованиями и разработкой в области искусственного интеллекта, предлагающая разли...
    Whisper Whisper
    Этот инструмент предоставляет мощные возможности для распознавания речи, перевода и идентификации языков, что делает его...
    Attention Attention
    Это современный голосовой ассистент для команд продаж, который помогает ускорить процесс закрытия сделок, предоставляя п...

    Новости new

    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Новости индустрии ИИ
    16 марта 2026, 15:05
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Новости индустрии ИИ
    16 марта 2026, 15:03
    Последние события в мире ИИ: ключевые новости и разработки
    Последние события в мире ИИ: ключевые новости и разработки
    Новости индустрии ИИ
    16 марта 2026, 09:02
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Новости индустрии ИИ
    16 марта 2026, 03:05
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026