На фоне бурного развития крупномасштабных ИИ-моделей Alibaba анонсировала новинку — Qwen3.5-397B-A17B. Эта модель входит в новую генерацию языковых систем и использует разреженную архитектуру MoE, которая позволяет активировать всего 17 миллиардов параметров из 397 миллиардов — такая стратегия обеспечивает производительность, сравнимую с моделью в 400 миллиардов параметров, при этом сохраняя высокую скорость вывода.
Модель демонстрирует рост пропускной способности декодирования в 8,6—19 раз по сравнению с предыдущими версиями. В основе лежит гибридная архитектура, сочетающая линейные механизмы внимания с MoE, что снижает затраты ресурсов при работе с большими объемами данных. В модели 60 слоёв, скрытое состояние в 4096, несколько групп слоёв используют механизмы Gated Delta и Gated Attention — такой дизайн улучшает рассуждения и работу с визуальной информацией.
Внутри системы задействовано 512 экспертов, каждый токен активирует одновременно 10 routed экспертов и 1 общий — всего 11 единиц на токен. Объем словаря достигает 248,320 токенов. Особенность — обучение модели как мультимодальной системы, способной одновременно работать с изображениями и текстом, что усиливает визуальное рассуждение. Модель умеет генерировать HTML и CSS по скриншотам интерфейсов, анализировать видео продолжительностью до двух часов и выполнять множество сложных задач.
Поддерживаются протокол Model Context и сложное вызов функций, что важно для создания автономных агентов. На бенчмарках вроде IFBench достигает 76,5 баллов, превосходя многие коммерческие системы. Она также показывает хорошие результаты по специфическим метрикам, например, GPT-стиль теста. Поддержка 201 языка делает её универсальным решением для международного рынка.
Благодаря расширенному контексту — 262 тысячи токенов, а в версии Qwen3.5-Plus — до миллиона, — модель способна обрабатывать целые кодовые базы или двухчасовые видео в одном запросе, обходя необходимость Retrieval-Augmented Generation. Такой подход делает её незаменимой для комплексных задач.
В целом, Qwen3.5 сочетает масштабность и эффективность, обладает нативными мультимодальными возможностями и поддержкой длинных контекстов. Это важный прорыв, который даст стимул развитию ИИ-агентов и систем понимания текста и изображений. Разработчики и исследователи могут ознакомиться с техническими деталями, весами модели и репозиторием GitHub, а также подключиться к сообществам через соцсети.
Alibaba создала системное решение нового уровня: крупную модель, которая сочетает масштаб, скорость и мультимодальные возможности. Это шаг в будущее, где ИИ сможет работать с сложными визуально-текстовыми задачами на уровне, ранее недоступном.
