Inworld AI объявила о выпуске TTS-1.5 — обновлённой версии своей системы преобразования текста в речь, предназначенной для голосовых агентов в реальном времени с жесткими требованиями к задержке и качеству. Эта новая версия получила признание как лучшая в своей категории по версии Artificial Analysis и отличается большей выразительностью и стабильностью по сравнению с предшественниками.
Главный акцент сделан на показатель P90 времени реакции — на первом аудио — который для TTS-1.5 Max достигает менее 250 миллисекунд, а для Mini — ниже 130 миллисекунд. Эти показатели в четыре раза быстрее предыдущих поколений, что значительно улучшает отвечающий пользователю отклик. Благодаря поддержке потоковой передачи через WebSocket система способна начать воспроизведение сразу после генерации первого куска звука, что практически нивелирует задержку взаимодействия — сравнимую с ответами современных языковых моделей на GPU. Rекомендуемый вариант — TTS-1.5 Max, сбалансированный по задержке (~200 мс), стабильности и качеству, тогда как Mini предназначен для сверхчувствительных к скорости задач, например, в играх или голосовых ассистентах.
Модель стала тоньше на 30% по выразительности, и на 40% — по стабильности. Улучшения коснулисьProsody, акцентов, эмоций, а также показателей точности и согласованности. Снижение ошибок в распознавании слов уменьшает проблему невнятных и обрезанных фраз при использовании TTS совместно с языковыми моделями, что критично для качественной генерации.
Цены рассчитаны на высокий объём использования: Mini стоит около 5 долларов за миллион символов (около 0,005 долларов за минуту речи), Max — 10 долларов за миллион (примерно 0,01 долларов за минуту). Это делает технологию доступной для массовых продуктов — голосовых платформ, образовательных сервисов, поддержки клиентов. Поддержка 15 языков — включая английский, французский, китайский, русский и другие — обеспечивает глобальный охват. Также есть функции мгновенного клонирования голоса по короткому фрагменту, а для более точного — 30 минут чистого аудио. Процесс внедрения возможен как через облачные API, так и внутри организации — что важно для защиты данных.
Потенциал системы очевиден: снижение latency, рост выразительности, масштабируемость и экономическая эффективность. В будущем ожидается дальнейшее развитие в области мультиязычности, персонализации голосов и поддержки более широкого спектра платформ. Уже сейчас видно, что команды, ориентированные на качество и скорость, уходят вперёд, а оставшиеся — вынуждены переосмыслять свой подход к реализации голосовых решений.
Завершая, можно сказать, что эпоха реальных голосовых агентов на базе технологии TTS-1.5 только начинается. Те, кто рассчитывают на качественный и быстрый звук, должны уже сейчас обращать внимание на новые возможности, потому что именно правильный старт определит их успех в ближайшие годы.


