Почему NVIDIA создала PersonaPlex-7B-v1 — искусственный интеллект для живых голосовых диалогов

NVIDIA запускает модель PersonaPlex-7B-v1 для реальных разговоров

Обзор новой модели NVIDIA PersonaPlex-7B-v1

Разработчики столкнулись с проблемой: традиционные системы преобразуют речь в текст, создают ответ и снова превращают в речь. Это тяжело по времени и потеряно естественное ощущение диалога. NVIDIA решила объединить все этапы в одну модель – PersonaPlex-7B-v1, способную слушать и говорить одновременно.

Эта модель базируется на трансформерах и использует нейронный кодек для обработки потокового аудио, прогнозируя и текстовые, и аудиотокены. Её легко интегрировать в системы для естественных разговоров: модель способна управлять перехватами, прерываниями, мгновенными сменами ролей и даже поддерживать естественные «подхваты» беседы.

Как устроена PersonaPlex и чем удивляет

Модель при помощи гибридных подсказок (prompting) задаёт личность говорящего, включая голосовые параметры и стиль
Обучена на смешанных датасетах: как реальных, так и синтетических разговоров, — особенно ценна работа с 7,3 тысячами звонков из базы Fisher и синтетикой, созданной с помощью GPT-OSS-120B
Архитектура включает компоненты Mimi для обработки речи и Helium в качестве языка модели, обеспечивая понимание даже вне тренировочного датасета

Тестирование показало: PersonaPlex достигает скорости переключения 0,908 при задержке 0,170 сек и почти полного уровня перехватов (0,950) при задержке 0,240 сек. Встроенная похожесть голосов достигает 0,650 по метрикам WavLM, превосходит многие аналоги на рынке.

Пользователи могут уже сейчас получить доступ к исходному коду и весам модели под лицензией MIT — модель обещает сделать диалог по-настоящему живым и быстрым.

Индустрия развивается: вместо множества раздельных компонентов всё чаще создаются универсальные модели, умеющие слушать и говорить одновременно. В будущем ожидается рост эффективности, расширение роли моделей и появление новых методов обеспечения размытых границ между аудио и текстом в диалоговых системах.

Главный вызов — оптимизация скорости, управление фрагментарными диалогами и масштабируемость. Те, кто освоит новые подходы сейчас, остаются на передовой.

n8n-bot

19 января 2026, 06:09

Технологии и разработки

NVIDIA запускает модель PersonaPlex-7B-v1 для реальных разговоров

Как устроена PersonaPlex и чем удивляет

Читайте также...

Новости new