На рынке появление нового диалогового моделля всегда вызывает ажиотаж. Но Chroma 1.0 — это не просто очередная модель — это первая открытая система, способная одновременно обрабатывать звук и говорить, сохраняя уникальный голос собеседника на протяжении всей беседы. Предлагаемый как end-to-end решение, оно объединяет низкую задержку работы и качественное клонирование голоса всего за пару секунд обучения. Именно так обещали индустрии прорыв — и первые оценки подтверждают: это действительно возможно.
Строится эта система на архитектуре с несколькими компонентами. В её основе — Chroma Reasoner, созданный на базе модуля Thinker из серии Qwen-omni, использующий алгоритм Qwen2 для кодирования аудио и понимания диалога. Он соединяет в себе модели, которые объединяют язык и звук с помощью cross-modal attention и специальных виньеток TM-RoPE. В результате — модель, которая умеет одновременно анализировать речь и создавать её заново.
Главная инновация — архитектура Backbone, основанная на миллиардерном LLaMA-подобном языке, — Llama3. В основе — внедрение в модель конкретного голосового образца через CSM-1B, взятый из короткой аудиозаписи. Модель генерирует речь по принципу: на каждый текстовый токен — два кода звука, что позволяет говорить в реальном времени. Благодаря этому, в течение примерно 147 миллисекунд модель уже готова начать говорить. Задержка — чуть больше секунды — это уже ближе к реальному диалогу.
Чтобы компенсировать отсутствие большого количества натуральных диалогов, разработчики используют синтетические данные — создавая их на базе TTS-систем, которые имитируют качество и тембр реального голосового образца. Так, модель учится воспроизводить уникальный голос и нюансы звучания, оставаясь точной и естественной.
Объективные оценки свидетельствуют: несмотря на свои 4 миллиарда параметров, Chroma показывает высокие результаты в области похожести на голос и естественности. В частности, по шкале схожести — 0.81 при среднем в 0.73 среди человека, что перевешивает многие существующие решения.
Время отклика и потоковые режимы позволяют использовать систему в живых диалогах — модель успешно демонстрирует способность отвечать за несколько секунд, а затраты по времени на вывод — в пределах четверти секунды. В ходе тестов она показывает отличные результаты по когнитивным задачам — например, по URO Bench даёт около 57%, превосходя некоторые крупные модели. Уникальная возможность — клонирование голосов в реальном времени и работа с персонализированным диалогом.
Следующее — векторизация, то есть умение масштабировать систему до миллионов документов и диалогов, а также совершенствование за счёт новых данных. Впрочем, главный тренд очевиден: индустрия переходит от экспериментов к практическому применению — делать голосовых асистентов, клонирование и диалоговые системы реально готовыми к повседневной жизни.
Если вы планируете ставить свой голосовой ассистент — уже сейчас понятно: самая важная часть — качество данных и подготовка. Модель слишком хороша, чтобы с этим не сталкиваться. Поэтому новая волна — это уже не просто гипотеза. Это то, к чему ведут последние месяцы исследований — развитие в направлении низкой задержки, высокой точности и персонализации.
