IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Meta открыла PE-AV: единый энкодер для аудио, видео и текста, который меняет мультимодальный поиск

    Meta открыла PE-AV: единый энкодер для аудио, видео и текста

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Meta открыла PE-AV: единый энкодер для аудио, видео и текста
    PE-AV и PE A-Frame стали частью Perception Models и лежат в основе SAM Audio

    Лид: Meta open-sourced PE-AV - новую семью энкодеров для совместного понимания аудио, видео и текста, обученных масштабным контрастивным обучением примерно на 100 миллионов аудио-видео пар с подписями. На деле это попытка сделать одну модель, которая поддерживает текст->видео поиск, текст->аудио поиск, аудио->видео поиск и другие режимы без дообучения специализированных голов.

    Контраст и тренд: пока индустрия ставила отдельные модели на отдельные задачи, Meta делает ставку на объединение. Вместо десятков отдельно настроенных систем - единое векторное пространство, где разные виды данных сравниваются напрямую. Это не просто релиз модели, это сигнал: мультимодальные представления растут из академии в практику.

    Что внутри и почему это важно

    Архитектура PE-AV построена как несколько «башен»: отдельный frame encoder для RGB-кадров, временный видеоэнкодер поверх фреймовых признаков, аудиоэнкодер, который через DAC VAE кодек превращает сырые волны в дискретные аудио-токены с частотой примерно один embedding каждые 40 миллисекунд, аудио-видео fusion encoder и текстовый энкодер с несколькими специализированными текстовыми пространствами. Проще: у каждой модальности своя дорога к общему языку чисел, а потом все сводят в единое пространство, где можно быстро искать по смыслу.

    Объяснение термина: embedding - это когда текст или звук переводится в набор чисел, чтобы сравнивать по смыслу. DAC VAE - это способ превратить непрерывную звуковую волну в последовательность токенов, как если бы ты нарезал звук на маленькие кадры и описал каждый цифрами.

    Как обучали модель - синтетика в большом масштабе

    Ключевой рычаг PE-AV - собственный data engine, который генерирует подписи в два этапа. На этапе 1 несколько слабых аудио-кэпшенеров и отдельные видеокэпшенеры с их оценками уверенности передаются в LLM, который для каждого клипа выдает три подписи: аудио, визуальную и совместную аудио-визуальную. На этапе 2 начальная версия PE-AV работает вместе с Perception Language Model decoder и уточняет подписи, чтобы лучше отразить корреспонденции между звуком и картинкой. Итог - примерно 100 миллионов пар аудио-видео, из которых около 92 млн уникальных клипов пошли на pretraining и дополнительные 32 млн на fine-tuning.

    Почему это важно: раньше крупные корпуса концентрировались на речи или узких звуковых доменах. Здесь коллекция сбалансирована по речи, общим звукам, музыке и разным видео-доменам - это даёт модели более широкий охват для реального применения.

    Целевая функция и мультипары модальностей

    PE-AV использует сигмоидную контрастивную функцию потерь по множеству пар модальностей. На этапе pretraining оптимизировались восемь пар контрастивных потерь, покрывающих комбинации аудио, видео, текста и fusion-представлений. При fine-tuning добавили ещё две пары, итого десять. Практический смысл: все представления выравниваются в одном пространстве, и для задач классификации или поиска хватает простого скалярного произведения (dot-product).

    Результаты и где PE-AV бьет конкурентов

    Meta публикует статистику, где PE-AV устанавливает новые state-of-the-art на нескольких аудио- и видео-бенчмарках по сравнению с CLAP, AudioFlamingo, ImageBind и LanguageBind. Ключевые улучшения, озвученные в публикации:

    • AudioCaps (text-to-audio retrieval): R@1 вырос с 35.4 до 45.8.
    • VGGSound (clip-level classification): точность 36.0 -> 47.1.
    • Задачи по поиску речи в стиле VCTK: точность до 85.6, тогда как ранние модели были близки к нулю на таких задачах.
    • ActivityNet (text-to-video retrieval): R@1 60.4 -> 66.5.
    • Kinetics-400 (zero-shot video classification): 76.9 -> 78.9, при этом PE-AV обходит модели в 2-4 раза крупнее.

    Meta также выпустила шесть публичных чекпоинтов от маленьких 16-frame вариантов до больших all-frame версий; средняя производительность по retrieval улучшается примерно с 45 до 51.6.

    PE A-Frame - точная локализация звуков

    Отдельный вариант PE A-Frame обучен для локализации событий в звуке. Модель дает по одному аудио-эмбеддингу примерно каждые 40 миллисекунд и связывает эти фреймовые эмбеддинги с текстовыми запросами. По-простому: можно задать запрос «где там удар барабана» и получить временные отрезки, где похожий звук встречается. Это полезно для поиска спикера, инструмента или кратких звуковых событий в длинных записях.

    Роль в экосистеме Perception Models и SAM Audio

    PE-AV и PE A-Frame - это ядро стека Perception Models, они работают вместе с Perception Language Model для генерации и мультимодального рассуждения. В практике PE-AV лежит в основе SAM Audio и Judge evaluator: модель помогает связывать визуальные и текстовые подсказки с источниками звука в сложных миксах и оценивать качество выделенных аудио-дорожек.

    Что это значит для индустрии и разработчиков

    Направление очевидно - унификация представлений разных модальностей. Для разработчиков это значит, что в ближайшие месяцы появится больше готовых энкодеров, которые можно взять для кросс-модального поиска и локализации без создания тонны отдельных пайплайнов. Но есть и предостережения: такие системы требуют больших данных и вычислений, а синтетические подписи могут нести свои шумы и смещения. Нужно тестировать на своих доменах и проверять, как модель ведет себя на локальных данных.

    Практические советы разработчикам на основе релиза:

    • Начните с публичных чекпоинтов PE-AV для прототипа поиска по мультимодальным данным.
    • Если нужна временная локализация - смотрите в сторону PE A-Frame.
    • Тестируйте качество синтетических подписей на ваших доменах - синтетика помогает масштабировать, но не заменяет ручную валидацию для критичных задач.
    • Оценивайте задержки и вычислительные потребности: fusion энкодер и frame-level представления увеличивают нагрузку.

    Перспектива

    PE-AV - не просто очередная модель, а пример тренда: крупные игроки сводят модальности в одно пространство и делают это доступным для сообщества. В ближайшие 6-12 месяцев можно ожидать усиления конкуренции в области мультимодальных энкодеров, появления оптимизированных версий для edge и роста инструментов для валидации синтетических аннотаций. Команды, которые готовы инвестировать в проверку данных и оптимизацию inference, получат преимущество в реализации поиска и анализа медиа.

    Источник: публикация Meta и разбор на Marktechpost. Полная статья и код на странице проекта Meta: https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/

    n8n-bot
    23 декабря 2025, 06:07
    Технологии и разработки

    Читайте также...

    Perception Perception
    Этот инструмент сочетает в себе искусственный интеллект и дизайн, предлагая генератор цветовых палитр, основанный на пси...

    Новости new

    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Новости индустрии ИИ
    16 марта 2026, 15:05
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Новости индустрии ИИ
    16 марта 2026, 15:03
    Последние события в мире ИИ: ключевые новости и разработки
    Последние события в мире ИИ: ключевые новости и разработки
    Новости индустрии ИИ
    16 марта 2026, 09:02
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Новости индустрии ИИ
    16 марта 2026, 03:05
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026