Rядовая история слияния технологий и инженерных решений — так можно охарактеризовать запуск Maia 200, нового AI-ускорителя от Microsoft, предназначенного для inference. Этот чип специально создан для сокращения затрат на генерацию токенов и выполнение reasoning задач в крупном масштабе.
Выход на рынок происходит в ключевой момент: индустрия переходит от обучения к inference, и именно в этом секторе Maia 200 показывает свою силу. Благодаря использованию передовых технологий TSMC 3 нм и наличию свыше 140 миллиардов транзисторов, устройство достигает более 10 петафлопс в FP4 и свыше 5 петафлопс в FP8 — рекордные показатели для таких решений. Это позволило Microsoft повысить эффективность на 30% по сравнению с существующими решениями, превосходя не только собственные системы, но и конкурентные продукты как Amazon Trainium и Google TPU v7.
Архитектура и дизайн: Hierarchy и Ethernet
Maia 200 использует иерархическую микроархитектуру, где самые маленькие блоки — тайлы с Tensor и Vector модулями. Каждая часть содержит собственную SRAM и работает в связке с группами тайлов, объединённых шиной DMA и общей памятью. Такой подход обеспечивает высокую утилизацию ресурсов и гибкое управление памятью под разные задачи.
Движение данных внутри чипа — задача не из простых, для этого применена уникальная сеть на кристалле с выделенными потоками для тензорных и управляющих сообщений. А Ethernet Fabric способен достичь скорости 1.4 ТБ/с, масштабируемой до 6 144 ускорителей, что даёт гигантские возможности для распределённой inference. Это те решения, которые позволяют Microsoft корректно масштабировать работу GPT-5.2 и других моделей, включая работу с гигантскими наборами данных и reinforcement learning.
Что дальше? Тренды и вызовы
Переход в inference-ориентированную инфраструктуру — не просто модный тренд, а необходимость для дальнейшего роста производительности. Microsoft показывает, что самые большие инвестиции идут в микросхемы с необычной hierarсhией памяти и масштабируемой Ethernet-сетью. В ближайшие месяцы мы увидим ещё больше решений, которые объединят эффективность и гибкость, а компании, правильно освоившие эти технологии, получат значительное преимущество. Но остаются вопросы: как масштабировать такие решения для гигантских моделей и смогут ли конкуренты догнать лидеров?

