IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • MedASR от Google Health: Conformer ASR на 105M для клинической диктовки

    MedASR от Google Health: Conformer ASR для клинической диктовки

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    MedASR от Google Health: Conformer ASR для клинической диктовки
    MedASR - Conformer ASR, 105M параметров, 5000 часов медицинской речи

    Лид: Google Health представила MedASR - Conformer‑модель автоматического распознавания речи с открытыми весами, специально обученную на медицинской диктовке и клинических разговорах. Релиз, объявленный 23 декабря 2025 года, четко показывает тренд: вместо универсальных ASR всё чаще берут специализированные модели для критичных областей, где важна точность терминов.

    Контекст: MedASR входит в портфель Health AI Developer Foundations вместе с другими доменно‑специфичными моделями (например, MedGemma и MedSigLIP) и распространяется с едиными правилами использования и управлением. Это часть большой стратегии - дать разработчикам медицинских приложений открытые, оптимизированные решения, которые можно встраивать в конвейеры обработки и генерации текста.

    Что такое MedASR и где оно применяется

    MedASR - это Conformer‑основанная модель speech-to-text, предобученная на задачах медицинской диктовки и клинической транскрипции. У неё 105 миллионов параметров, она принимает монофонический аудиопоток с частотой дискретизации 16000 Hz и 16‑битной точностью и выдаёт только текст, чтобы результат можно было сразу передать в downstream NLP или генеративные модели вроде MedGemma.

    Данные и доменная специализация

    Модель обучалась на примерно 5000 часах деидентифицированной медицинской речи: диктовки врачей и клинические разговоры из радиологии, внутренней медицины и семейной медицины. Тренировочные пары включают аудиосегменты, расшифровки и метаданные; часть разговорных данных аннотирована медицинскими сущностями (симптомы, препараты, диагнозы). Такая фокусировка даёт хорошее покрытие клинической терминологии и типичных формулировок в документации.

    Важно: MedASR - англоязычная модель. Большая часть аудио в тренировочном наборе принадлежит носителям английского языка, выросшим в США. Документация прямо предупреждает, что на других профилях говорящих или при шумных микрофонах качество может хуже и рекомендует дообучение для таких случаев.

    Архитектура и декодирование

    Технология: MedASR использует Conformer‑энкодер, сочетающий сверточные блоки и self‑attention, чтобы ловить и локальные акустические паттерны, и долгосрочные временные зависимости. Модель экспонируется через интерфейс в стиле CTC. В референсных реализациях разработчики применяют AutoProcessor для подготовки фичей из waveforms и AutoModelForCTC для получения токенов.

    Декодинг: по умолчанию используется greedy decoding. При необходимости модель можно связать с внешней шестиграммовой (six‑gram) языковой моделью и beam search (beam size = 8) — это улучшает WER.

    Цифры и сравнение с общими моделями

    MedASR показывает сильные результаты на внутренних медицинских наборах:

    • Radiologist dictation (RAD DICT): MedASR greedy 6.6%, MedASR + LM 4.6%. Для сравнения: Gemini 2.5 Pro 10.0%, Gemini 2.5 Flash 24.4%, Whisper v3 Large 25.3%.
    • General/internal medicine dictation (GENERAL DICT): MedASR greedy 9.3%, MedASR + LM 6.9%. Сравнение: Gemini 2.5 Pro 16.4%, Gemini 2.5 Flash 27.1%, Whisper v3 Large 33.1%.
    • Family medicine dictation (FM DICT): MedASR greedy 8.1%, MedASR + LM 5.8%. Сравнение: Gemini 2.5 Pro 14.6%, Gemini 2.5 Flash 19.9%, Whisper v3 Large 32.5%.
    • Eye Gaze evaluation на 998 случаях MIMIC chest X‑ray: MedASR greedy 6.6%, MedASR + LM 5.2%. Сравнение: Gemini 2.5 Pro 5.9%, Gemini 2.5 Flash 9.3%, Whisper v3 Large 12.5%.

    Вывод из цифр: на этих медицинских датасетах MedASR с greedy или с LM‑декодингом сопоставим или лучше общих крупных ASR‑моделей.

    Как разработчикам внедрять MedASR

    Google даёт примеры пайплайна через Hugging Face transformers pipeline и хостированный артефакт модели. Минимальная схема: скачать или сослаться на артефакт MedASR, запустить pipeline ASR и подавать аудио кусками (пример: chunk_length_s=20 с stride_length_s=2).

    Рекомендации для контроля качества:

    • Использовать AutoProcessor и AutoModelForCTC для более тонкой интеграции.
    • Ресемплировать аудио до 16000 Hz - для этого часто используют librosa.
    • Для ускорения вывода переносить тензоры на CUDA, если доступен GPU.
    • Вызывать model.generate или forward pass и преобразовывать токены через processor.batch_decode. Для снижения ошибок по медицинским терминам стоит добавить внешнюю n‑gram языковую модель и beam search.
    • Для нестандартных акцентов и шумных записей планировать дообучение на ваших собственных данных.

    Обучение и инфраструктура

    MedASR тренировали с использованием JAX и ML Pathways на TPUv4p, TPUv5p и TPUv5e — то есть на той же базе инфраструктуры, что и другие foundation‑модели Google.

    Закон, управление и риски

    MedASR относится к портфелю Health AI Developer Foundations и распространяется с набором положений по использованию. Документация подчёркивает необходимость изучить условия, вопросы приватности и рекомендованное управление для клинических приложений. Практика показывает: даже хорошая модель не снимает с разработчика ответственности за проверку чувствительных данных и соответствие локальным регуляциям.

    Куда это ведёт и что важно отслеживать

    Тренд очевиден: индустрия переходит от универсальных моделей к доменно‑специфичным решениям, которые дают реальный выигрыш в критичных сценариях. Для медицинских приложений это значит меньший WER на профессиональной лексике и удобство интеграции с downstream NLP и генеративными системами.

    Но есть и обратная сторона: англоязычная, американская природа тренировочных данных ограничивает переносимость. Чтобы использовать MedASR в других регионах или с другими акцентами, придётся дообучать модель и строить процесс валидации качества.

    Заключение: если вы строите продукт для клиник на английском языке и вам важна точность по медицинским терминам, MedASR — рабочий стартовый вариант с открытыми весами и практическими инструментами. Если ваша цель - многоязычная или многоакцентная эксплуатация, рассчитывайте на дополнительную работу по адаптации и тестированию.

    Ресурсы: в релизе указаны ссылка на репозиторий модели и страница на Hugging Face для загрузки и подробностей; автор материала на Marktechpost - Asif Razzaq (публикация 23 декабря 2025).

    n8n-bot
    24 декабря 2025, 06:02
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026