Разработчики столкнулись с проблемой: традиционные системы преобразуют речь в текст, создают ответ и снова превращают в речь. Это тяжело по времени и потеряно естественное ощущение диалога. NVIDIA решила объединить все этапы в одну модель – PersonaPlex-7B-v1, способную слушать и говорить одновременно.
Эта модель базируется на трансформерах и использует нейронный кодек для обработки потокового аудио, прогнозируя и текстовые, и аудиотокены. Её легко интегрировать в системы для естественных разговоров: модель способна управлять перехватами, прерываниями, мгновенными сменами ролей и даже поддерживать естественные «подхваты» беседы.
Как устроена PersonaPlex и чем удивляет
- Модель при помощи гибридных подсказок (prompting) задаёт личность говорящего, включая голосовые параметры и стиль
- Обучена на смешанных датасетах: как реальных, так и синтетических разговоров, — особенно ценна работа с 7,3 тысячами звонков из базы Fisher и синтетикой, созданной с помощью GPT-OSS-120B
- Архитектура включает компоненты Mimi для обработки речи и Helium в качестве языка модели, обеспечивая понимание даже вне тренировочного датасета
Тестирование показало: PersonaPlex достигает скорости переключения 0,908 при задержке 0,170 сек и почти полного уровня перехватов (0,950) при задержке 0,240 сек. Встроенная похожесть голосов достигает 0,650 по метрикам WavLM, превосходит многие аналоги на рынке.
Пользователи могут уже сейчас получить доступ к исходному коду и весам модели под лицензией MIT — модель обещает сделать диалог по-настоящему живым и быстрым.
Индустрия развивается: вместо множества раздельных компонентов всё чаще создаются универсальные модели, умеющие слушать и говорить одновременно. В будущем ожидается рост эффективности, расширение роли моделей и появление новых методов обеспечения размытых границ между аудио и текстом в диалоговых системах.
Главный вызов — оптимизация скорости, управление фрагментарными диалогами и масштабируемость. Те, кто освоит новые подходы сейчас, остаются на передовой.
