Глава индустрии ASR (автоматического распознавания речи) постепенно переключается с экспериментальных решений на реальные крупномасштабные системы. Компания Mistral анонсировала Voxtral Transcribe 2, в котором реализованы две модели — одна для пакетной обработки с диаризацией, другая — для потокового распознавания в реальном времени. Обе поддерживают 13 языков, включая английский, русский и китайский.
Voxtral Mini Transcribe V2 позволяет бизнесам получать точную транскрипцию и разделение говорящих, управляемое через API. По заявлению разработчиков, точность достигает 96% (WER около 4%), что превосходит конкурентов по цене — $0.003 за минуту. Эта модель идеально подходит для собраний, конференций и многосторонних звонков.
Второй продукт — Voxtral Realtime — это модель для потокового распознавания с задержкой от 80 миллисекунд до 2.4 секунд. В её основе — около 4 миллиардов параметров, объединяющих языковую модель и аудиокодер. Благодаря архитектуре с каскадным вниманием, система способна работать на простом GPU с 16 ГБ памяти и запускаться даже на Edge-устройствах. При задержке в 480 мс достигается качество, сравнимое с оффлайн-распознаванием.
Правда, deployment у моделей разный: Mini — через API и playground за $0.003/минуту, Realtime — с открытыми весами на Hugging Face по лицензии Apache 2.0 и стоит $0.006/минуту. Важные фичи Mini включают диаризацию с точным таймингом, настройку по контексту, отметки времени для слов, шумоустойчивость и поддержку до трёх часов аудио. В основном, решение ориентировано на бизнес-задачи — встречи, конференции, рабочие звонки.
В итоге, Voxtral Transcribe 2 задаёт новые стандарты масштабируемого, мультиязычного ASR: выделяется качеством, низкой задержкой и гибкими возможностями развертывания. В индустрии уже понимают — для успеха нужно не только сила модели, а правильная архитектура и подготовка данных.



