Фронт исследования в области генеративного ИИ получил новый импульс: Google DeepMind анонсировал Unified Latents (UL) — платформу, которая объединяет диффузионные приоры и декодеры для более эффективной работы с латентами. Эта разработка напрямую нацелена на решение классического конфликта в моделях Latent Diffusion Models: масштабируемость против качества.
UL основана на трёх компонентах: фиксированном энкодере с гауссовским шумом, механизмам выравнивания приора и переоценке декодера с ELBO. Детерминированный энкодер предсказывает чистый латент, который затем зашумляется до определённого сигнала к шуму. Модель диффузии по приору согласовывается с этим уровнем шума, упрощая KL-дивергенцию до взвешенной MSE. В свою очередь, декодер использует сигмоид-отвешенный лосс, ограничивающий битрейт латента и позволяющий сосредоточиться на шумовых уровнях.
Обучение делится на два этапа: сначала совместное обучение энкодера, приора и декодера, потом — масштабирование базовой модели с замороженными компонентами на полученных латентах с усиленной взвешенностью. Такой подход показывает лучшие в индустрии результаты — например, FVD 1.3 и FID 1.4, что превосходит прошлые модели по эффективности и качеству.
UL демонстрирует высокий КПД: обучается быстрее при меньших ресурсах, достигая стабильных и точных результатов даже при сильном сжатии. В частности, по сравнению с Stable Diffusion, UL показывает более высокое качество генерации в рамках того же бюджета ресурсов. В целом, эта архитектура задаёт новый стандарт: теперь одновременно оптимизировать качество, масштаб и скорость — реально.
Перспективы индустрии выглядят убедительно: что дальше? В ближайшие 12 месяцев мы увидим ещё больше интеграции диффузионных приоров, появление новых методов стабилизации и расширения масштабов. Компании, которые поймут важность совместной оптимизации всех элементов — энкодера, приора и декодера, — получат существенное преимущество. В то же время остаются открытые вопросы — как максимально упростить обучение при сохранении качества и какие архитектурные инновации внедрить для работы с ещё большими данными. В целом, тренд однозначен: совместное, интегрированное обучение элементов системы — будущее генеративных моделей, и UL показывают наглядный пример этой эволюции.
