Недавно учёные представили свежий взгляд на проблему «шумной» речи. Они предложили простой, но мощный метод, который умеет очищать аудио на уровне скрытых представлений.
Идея состоит из трёх шагов. Сначала система извлекает эмбеддинги из зашумлённой записи при помощи заранее обученного генеративного аудиоэнкодера. Затем компактная нейронная сеть замечательно «очищает» эти эмбеддинги от помех. Наконец, вокодер восстанавливает чистую речь, синтезируя её из уже отфильтрованных признаков.
Почему это важно? Многие существующие методы ориентируются на маскирование спектра или прямой прогноз сигнала. Здесь же всё происходит «за кулисами» — работаем не с волной, а с её абстрактным представлением. Получается гибко и экономно.
В ходе экспериментов выяснилось: система на основе генеративного энкодера превосходит аналоги с дискриминативными моделями. И дело не только в чистоте звука, но и в сохранении индивидуальности голоса. Звонко, чётко и узнаваемо — даже после шумного окружения.
Ещё один плюс — размер. «Очиститель» (денойз-энкодер) занимает сущие копейки: достаточно двух MLP-слоёв, чтобы добиться впечатляющих результатов. А значит, можно запускать на слабом железе без лишней нагрузки.
«Знаете, это словно починка старой виниловой пластинки, — шутят разработчики. — Мы не переска dv our mp3, а аккуратно убираем царапины с пластинки-презентации». Такой подход открывает новые горизонты для приложений: от видеозвонков до систем чтения вслух.
Впрочем, финальный шаг — вокодер — тоже заслуживает внимания. Он самостоятельно обучается на чистых записях, без пары «шум–чисто». И это значит, что для настройки не нужны сложные датасеты: достаточно обычных аудиофайлов с качественной речью.
К слову, глобальная тонкая донастройка всех компонентов могла бы чуть-чуть подкрутить показатели. Но авторы специально отказались от этого, чтобы сохранить универсальность: взял предобученный энкодер или вокодер — и они уже готовы к делу.
В итоге получился эластичный и адаптируемый инструмент для улучшения речи. Он справляется с шумом, сохраняет характер голоса и требует минимальных ресурсов. И, честно говоря, такому подходу хочется дать «зелёный свет» в самых разных сценариях.
