Voxtral от Mistral AI: точная и дешевая распаковка речи в открытом доступе

Компания Mistral AI представила семейство моделей распознавания речи Voxtral, обещая переосмыслить подход к голосовым интерфейсам.

Что если можно получить точную расшифровку и понимание аудио без костылей? Voxtral доступен в двух вариантах — 24‑миллиардная версия для облачных внедрений и компактная 3‑миллиардная для локальных устройств и «edge»‑решений. Оба варианта распространяются по лицензии Apache 2.0 и подключаются через API, где специальная транскрипционная сборка Voxtral Mini Transcribe даёт фантастическое сочетание цены и скорости.

Ключевые возможности Voxtral

Модели работают с длинным контекстом — до 32 000 токенов, что эквивалентно 30 минутам записи для простой транскрипции и до 40 минут для глубокого анализа. Встроенная поддержка вопросов и ответов позволяет задавать системе уточняющие вопросы по содержанию аудио и получать структурированные резюме без лишних «конвейеров» из нескольких моделей. А автоматическое определение языка и выдающиеся результаты на английском, испанском, французском, португальском, хинди, немецком и других популярных языках делают Voxtral универсальным решением для международных команд.

По данным независимых тестов, версия Small (24B) превосходит такие индустриальные ориентиры, как Whisper Large-v3, GPT‑4o Mini Transcribe и Gemini 2.5 Flash, при этом стоимость запросов чаще всего не превышает половины цены коммерческих API. Звучит впечатляюще? Честно говоря, такого в открытом доступе ещё не было.

С открытым исходным кодом, богатым функционалом и разумной ценой Voxtral становится тем самым «мостом», которого так долго ждали разработчики голосовых сервисов. Готовы ли вы взять управление речью в свои руки?

22 июля 2025, 13:48

Новости индустрии ИИ

Voxtral от Mistral AI: точная и дешевая распаковка речи в открытом доступе

Ключевые возможности Voxtral

Связанные ИИ

Новости new