Команда китайских учёных представила LLaMA-Omni2 — масштабируемую модульную модель, сочетающую возможности обработки речи и языка. Эта система позволяет вести живое голосовое общение между человеком и ИИ с минимальной задержкой, что делает взаимодействие более естественным и реалистичным.
Модель способна не только распознавать речь, но и генерировать её практически мгновенно — задержка составляет менее 200 миллисекунд. Это стало возможным благодаря высокоэффективной архитектуре и модульной структуре, позволяющей оптимизировать обработку звука, текста и голоса независимо друг от друга.
LLaMA-Omni2 демонстрирует отличные результаты на известных международных тестах, таких как LibriSpeech и VCTK, и уже рассматривается как основа для следующих поколений голосовых ассистентов, автоматических переводчиков и систем голосового взаимодействия в умных устройствах.
Исследователи подчёркивают, что благодаря гибкости архитектуры и масштабируемости, LLaMA-Omni2 легко адаптируется под различные языки и задачи. Ожидается, что модель найдёт применение в образовании, медицине, техподдержке и других сферах, где важна быстрая и точная голосовая коммуникация.

