Китайские учёные представили LLaMA-Omni2 — ИИ с речью в реальном времени

Команда китайских учёных представила LLaMA-Omni2 — масштабируемую модульную модель, сочетающую возможности обработки речи и языка. Эта система позволяет вести живое голосовое общение между человеком и ИИ с минимальной задержкой, что делает взаимодействие более естественным и реалистичным.

Модель способна не только распознавать речь, но и генерировать её практически мгновенно — задержка составляет менее 200 миллисекунд. Это стало возможным благодаря высокоэффективной архитектуре и модульной структуре, позволяющей оптимизировать обработку звука, текста и голоса независимо друг от друга.

LLaMA-Omni2 демонстрирует отличные результаты на известных международных тестах, таких как LibriSpeech и VCTK, и уже рассматривается как основа для следующих поколений голосовых ассистентов, автоматических переводчиков и систем голосового взаимодействия в умных устройствах.

Исследователи подчёркивают, что благодаря гибкости архитектуры и масштабируемости, LLaMA-Omni2 легко адаптируется под различные языки и задачи. Ожидается, что модель найдёт применение в образовании, медицине, техподдержке и других сферах, где важна быстрая и точная голосовая коммуникация.

4 мая 2025, 00:00

Новости индустрии ИИ

Китайские учёные представили LLaMA-Omni2 — ИИ с речью в реальном времени

Связанные ИИ

Новости new