Компания Mistral AI представила семейство моделей распознавания речи Voxtral, обещая переосмыслить подход к голосовым интерфейсам.
Что если можно получить точную расшифровку и понимание аудио без костылей? Voxtral доступен в двух вариантах — 24‑миллиардная версия для облачных внедрений и компактная 3‑миллиардная для локальных устройств и «edge»‑решений. Оба варианта распространяются по лицензии Apache 2.0 и подключаются через API, где специальная транскрипционная сборка Voxtral Mini Transcribe даёт фантастическое сочетание цены и скорости.
Ключевые возможности Voxtral
Модели работают с длинным контекстом — до 32 000 токенов, что эквивалентно 30 минутам записи для простой транскрипции и до 40 минут для глубокого анализа. Встроенная поддержка вопросов и ответов позволяет задавать системе уточняющие вопросы по содержанию аудио и получать структурированные резюме без лишних «конвейеров» из нескольких моделей. А автоматическое определение языка и выдающиеся результаты на английском, испанском, французском, португальском, хинди, немецком и других популярных языках делают Voxtral универсальным решением для международных команд.
По данным независимых тестов, версия Small (24B) превосходит такие индустриальные ориентиры, как Whisper Large-v3, GPT‑4o Mini Transcribe и Gemini 2.5 Flash, при этом стоимость запросов чаще всего не превышает половины цены коммерческих API. Звучит впечатляюще? Честно говоря, такого в открытом доступе ещё не было.
С открытым исходным кодом, богатым функционалом и разумной ценой Voxtral становится тем самым «мостом», которого так долго ждали разработчики голосовых сервисов. Готовы ли вы взять управление речью в свои руки?

