MedASR от Google Health: медицинский ASR на 105M

Лид: Google Health представила MedASR - Conformer‑модель автоматического распознавания речи с открытыми весами, специально обученную на медицинской диктовке и клинических разговорах. Релиз, объявленный 23 декабря 2025 года, четко показывает тренд: вместо универсальных ASR всё чаще берут специализированные модели для критичных областей, где важна точность терминов.

Контекст: MedASR входит в портфель Health AI Developer Foundations вместе с другими доменно‑специфичными моделями (например, MedGemma и MedSigLIP) и распространяется с едиными правилами использования и управлением. Это часть большой стратегии - дать разработчикам медицинских приложений открытые, оптимизированные решения, которые можно встраивать в конвейеры обработки и генерации текста.

Что такое MedASR и где оно применяется

MedASR - это Conformer‑основанная модель speech-to-text, предобученная на задачах медицинской диктовки и клинической транскрипции. У неё 105 миллионов параметров, она принимает монофонический аудиопоток с частотой дискретизации 16000 Hz и 16‑битной точностью и выдаёт только текст, чтобы результат можно было сразу передать в downstream NLP или генеративные модели вроде MedGemma.

Данные и доменная специализация

Модель обучалась на примерно 5000 часах деидентифицированной медицинской речи: диктовки врачей и клинические разговоры из радиологии, внутренней медицины и семейной медицины. Тренировочные пары включают аудиосегменты, расшифровки и метаданные; часть разговорных данных аннотирована медицинскими сущностями (симптомы, препараты, диагнозы). Такая фокусировка даёт хорошее покрытие клинической терминологии и типичных формулировок в документации.

Важно: MedASR - англоязычная модель. Большая часть аудио в тренировочном наборе принадлежит носителям английского языка, выросшим в США. Документация прямо предупреждает, что на других профилях говорящих или при шумных микрофонах качество может хуже и рекомендует дообучение для таких случаев.

Архитектура и декодирование

Технология: MedASR использует Conformer‑энкодер, сочетающий сверточные блоки и self‑attention, чтобы ловить и локальные акустические паттерны, и долгосрочные временные зависимости. Модель экспонируется через интерфейс в стиле CTC. В референсных реализациях разработчики применяют AutoProcessor для подготовки фичей из waveforms и AutoModelForCTC для получения токенов.

Декодинг: по умолчанию используется greedy decoding. При необходимости модель можно связать с внешней шестиграммовой (six‑gram) языковой моделью и beam search (beam size = 8) — это улучшает WER.

Цифры и сравнение с общими моделями

MedASR показывает сильные результаты на внутренних медицинских наборах:

Radiologist dictation (RAD DICT): MedASR greedy 6.6%, MedASR + LM 4.6%. Для сравнения: Gemini 2.5 Pro 10.0%, Gemini 2.5 Flash 24.4%, Whisper v3 Large 25.3%.
General/internal medicine dictation (GENERAL DICT): MedASR greedy 9.3%, MedASR + LM 6.9%. Сравнение: Gemini 2.5 Pro 16.4%, Gemini 2.5 Flash 27.1%, Whisper v3 Large 33.1%.
Family medicine dictation (FM DICT): MedASR greedy 8.1%, MedASR + LM 5.8%. Сравнение: Gemini 2.5 Pro 14.6%, Gemini 2.5 Flash 19.9%, Whisper v3 Large 32.5%.
Eye Gaze evaluation на 998 случаях MIMIC chest X‑ray: MedASR greedy 6.6%, MedASR + LM 5.2%. Сравнение: Gemini 2.5 Pro 5.9%, Gemini 2.5 Flash 9.3%, Whisper v3 Large 12.5%.

Вывод из цифр: на этих медицинских датасетах MedASR с greedy или с LM‑декодингом сопоставим или лучше общих крупных ASR‑моделей.

Как разработчикам внедрять MedASR

Google даёт примеры пайплайна через Hugging Face transformers pipeline и хостированный артефакт модели. Минимальная схема: скачать или сослаться на артефакт MedASR, запустить pipeline ASR и подавать аудио кусками (пример: chunk_length_s=20 с stride_length_s=2).

Рекомендации для контроля качества:

Использовать AutoProcessor и AutoModelForCTC для более тонкой интеграции.
Ресемплировать аудио до 16000 Hz - для этого часто используют librosa.
Для ускорения вывода переносить тензоры на CUDA, если доступен GPU.
Вызывать model.generate или forward pass и преобразовывать токены через processor.batch_decode. Для снижения ошибок по медицинским терминам стоит добавить внешнюю n‑gram языковую модель и beam search.
Для нестандартных акцентов и шумных записей планировать дообучение на ваших собственных данных.

Обучение и инфраструктура

MedASR тренировали с использованием JAX и ML Pathways на TPUv4p, TPUv5p и TPUv5e — то есть на той же базе инфраструктуры, что и другие foundation‑модели Google.

Закон, управление и риски

MedASR относится к портфелю Health AI Developer Foundations и распространяется с набором положений по использованию. Документация подчёркивает необходимость изучить условия, вопросы приватности и рекомендованное управление для клинических приложений. Практика показывает: даже хорошая модель не снимает с разработчика ответственности за проверку чувствительных данных и соответствие локальным регуляциям.

Куда это ведёт и что важно отслеживать

Тренд очевиден: индустрия переходит от универсальных моделей к доменно‑специфичным решениям, которые дают реальный выигрыш в критичных сценариях. Для медицинских приложений это значит меньший WER на профессиональной лексике и удобство интеграции с downstream NLP и генеративными системами.

Но есть и обратная сторона: англоязычная, американская природа тренировочных данных ограничивает переносимость. Чтобы использовать MedASR в других регионах или с другими акцентами, придётся дообучать модель и строить процесс валидации качества.

Заключение: если вы строите продукт для клиник на английском языке и вам важна точность по медицинским терминам, MedASR — рабочий стартовый вариант с открытыми весами и практическими инструментами. Если ваша цель - многоязычная или многоакцентная эксплуатация, рассчитывайте на дополнительную работу по адаптации и тестированию.

Ресурсы: в релизе указаны ссылка на репозиторий модели и страница на Hugging Face для загрузки и подробностей; автор материала на Marktechpost - Asif Razzaq (публикация 23 декабря 2025).