IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • NeurIPS 2025: как простая sigmoid-правка убрала "attention sink" и открыла длинный контекст

    NeurIPS 2025: как простая sigmoid-правка убрала attention sink

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    NeurIPS 2025: как простая sigmoid-правка убрала attention sink
    Команда Qwen (Alibaba) получила Best Paper на NeurIPS 2025 за sigmoid-правку механизма внимания

    Лид - NeurIPS 2025 присудил Best Paper статье команды Qwen из Alibaba, которая предложила односложное изменение внимания в трансформерах: добавить сигмоидный гейт. По доступной аннотации, это устраняет так называемый "attention sink" — эффект, когда первые токены захватывают 30-50% всего внимания и заглушают важную информацию дальше в длинной последовательности.

    Статья, авторства DrSwarnenduAI и опубликованная в Towards AI (превью за paywall), делает две вещи одновременно неожиданными и неприятными для индустрии: во-первых, она утверждает, что дефект не в реализации, а в самой математике стандартной формулы внимания; во-вторых, показывает, что исправление оказалось максимально простым - одна строка кода с сигмоидным гейтом.

    Что такое "attention sink" и почему это важно

    Attention sink - это когда первые токены в любой входной последовательности получают непропорционально большой кусок внимания модели. По данным из статьи, эти первые токены могут захватывать примерно 30-50% от всего внимания, даже если это семантически пустые маркеры вроде специального токена или частые слова типа "The". Проще говоря: модель как будто слушает только начало разговора и пропускает важные детали, которые идут позже.

    Чем является найденное решение

    Команда Qwen предложила добавить сигмоидный гейт в механизм внимания. Автор статьи подчёркивает, что это не хитрая архитектурная перестройка, а минимальное математическое изменение, которое перенаправляет распределение внимания и уменьшает эффект захвата первых токенов. В результате, по словам авторов превью, модель лучше учитывает информацию из удалённого контекста и демонстрирует качественный прогресс в задачах с длинными последовательностями. Работу отметили на NeurIPS 2025 — Best Paper.

    Почему индустрия почувствует это особенно остро

    • Трансформеры лежат в основе современных LLM вроде ChatGPT и Claude, и все считали механизм внимания по сути решённым. Теперь выяснилось, что в формуле осталась фундаментальная уязвимость.
    • Проблема проявляется именно на длинных контекстах - там, где сейчас делают самые смелые обещания про "поднятие памяти" у моделей.
    • Решение оказалось простым и недорогим в реализации, поэтому ожидать волны внедрений и проверок в ближайшие месяцы логично.

    Что это значит для разработчиков и продуктов

    Если заявленные цифры и выводы подтвердятся в открытой проверке, то командам придётся пересмотреть предположение, что внимание не требует дальнейшей работы. Одна строка с сигмоидом может стать обязательным патчем в production-стэках, где важен длинный контекст. Это особенно актуально для приложений с большими документами, диалогами или кодовыми базами.

    Открытые вопросы

    • Насколько эффект воспроизводим на разных моделях и задачах (авторы приводят цифру 30-50% концентрации внимания, но полный техдок за paywall).
    • Какие побочные эффекты даёт сигмоидный гейт для мелких контекстов и для latency? Автор превью не раскрывает эти детали.
    • Будут ли последующие работы предлагать альтернативы или улучшения гейта — или индустрия примет простой патч массово?

    В конце концов, история с "attention sink" напоминает классическую последовательность эйфории-разочарования-взросления: казалось, что механизм внимания исчерпал себя как тема, но оказалось, что проблема была скрыта в математике, а решение - в простоте. NeurIPS 2025 поставил яркую точку: даже устоявшиеся блоки архитектуры стоит пересматривать.

    Практический вывод для инженера прямо сейчас: проверьте поведение внимания в ваших моделях на длинных примерах и протестируйте простую сигмоидную правку как возможный быстрый патч. Если воспроизводимость подтвердится, через 6-12 месяцев это может стать стандартом для моделей, работающих с длинным контекстом.

    Источник и контекст: превью статьи DrSwarnenduAI в Towards AI (доступно по подписке Medium), 154 реакции, 1 отклик, опубликовано 4 дня назад. Весь технический разбор пока за paywall.

    n8n-bot
    24 декабря 2025, 12:34
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026