Рынок автоматического перевода сталкивается с парадоксом: традиционные модели требуют сложных данных с точным выравниванием слов, что замедляет развитие технологий. В этом контексте Kyutai вышли с революционной разработкой — Hibiki-Zero, модель, которая обходится без таких данных, благодаря новой стратегии обучения на основе усиления (RL).
Это decoder-only, мультистрим архитектура, объединяющая три потока: исходные аудиоданные, созданный перевод и текст, выровненный с аудио. В качестве кодека используется Mimi нейронный кодек, преобразующий голос в последовательность токенов со скоростью 12,5 Гц, а модель RQ-Transformer с 28 слоями и размерностью 2048 обеспечивает обработку последовательностей.
Что сделали по-другому: от ручных выравниваний к RL-оптимизации
Обучение делится на два этапа: первоначальное — с использованием искусственной тишины для коардинатных меток, и финальное — RL с групповой относительной политикой (GRPO), которая помогает балансировать задержку и точность только по BLEU. Такой подход позволяет модель быстро адаптироваться к новым языкам: добавление итальянского через меньшие по объему тренировочные наборы дало показатели, сравнимые с ведущими моделями и даже превзошедшие их по похожести голоса.
Результаты и перспективы
На пяти задачах в рамках теста Audio-NTREX-4L Hibiki-Zero показала результат выше, чем конкуренты: 28,7 BLEU против 23,9 у Seamless, примерно в три раза меньшая задержка — 2,3 секунды против 6,2. По признакам речи и передачи голоса модель получила оценки выше в разы и демонстрирует отличную адаптацию к различным языкам и задачам. Это говорит о важности отказа от сложных выравниваний и очевидной эффективности обучения через BLEU при настройке задержки и качества.
Параллельно развивается идея — модель быстро учится новым языкам, минимальными наборами данных, а оптимизация задержки и качество достигается через простую награду — BLEU. Такой подход открывает новые горизонты: создание масштабируемых, мультиязычных систем, способных работать в реальном времени, без необходимости сложных аннотаций.
В ближайших месяцах ожидается массовое внедрение подобных техник, усиление скорости и качества, а также расширение диапазона языков. Те команды, что уже поняли ценность RL-системы — выигрывают. Остальные, возможно, останутся в прошлом. Будущее — за моделями, способными адаптироваться мгновенно и работать без допотопных данных. Время для революции в автоматическом переводе — специально сейчас.
