После лет экспериментов индустрия переводческих моделей наконец вышла на новый уровень. TranslateGemma — это не новая архитектура, а адаптация Gemma 3 под задачи перевода, выполненная в двухэтапном процессе обучения.
На первом этапе модели проходят тонкую настройку с использованием огромных параллельных корпусов, включающих как человеческий перевод, так и синтетический, созданный Gemini. Важна каждая деталь: фильтрация данных через MetricX 24 QE, использование Kauldron SFT, адаптивного оптимизатора AdaFactor, а также сохранение языковых представлений через frozen token embeddings, чтобы сохранить богатство языковых особенностей.
Второй этап — обучение через усиление с множеством поощрений: MetricX XXL QE, Gemma AutoMQM QE, ChrF, а также оценки по естественности и универсальности. Эта комбинация позволяет добиться не просто точности, а естественности и звучания, близкого к человеку.
Результат и сравнение с базовым Gemma 3
На бенчмарке WMT24 + модели показали превосходство над исходными. За счёт уменьшения MetricX с 4.04 до 3.09 и повышения показателей по другим метрикам, меньшие модели — 12 и 4 миллиарда — претендуют на роль более доступных альтернатив.
Независимо от размера, качество понижает ошибку при переводе для всех 55 языков, включая редкие (например, литовский, исландский). Человеческая оценка MQM подтверждает превосходство, особенно в сложных случаях: английский-махарати или суахили.
Мультимодальные возможности и будущее
Остаётся актуальным и возможность работы с изображениями: Gemma 3 сохраняет мультимодальные функции, а новая версия демонстрирует лучшие показатели и в переводе картинок — MetricX улетел с 2.03 до 1.58 и оценки по другим метрикам тоже выросли.
Модель и веса доступны на Hugging Face, Vertex AI и других платформах — это шанс интегрировать мощные переводческие технологии в локальные и облачные решения. Индустрия движется к тому, чтобы меньшие модели могли конкурировать с большими, а качество перевода стало не только точным, но и звучащим естественно. В следующем году ждут всё больше языков, улучшение мультимодальных функций и снижение затрат на обучение и развертывание моделей.
