Google выпустил MedASR - ASR для клинической диктовки

Лид: Google Health AI выпустил MedASR - Conformer-based ASR с открытыми весами, рассчитанную на клиническую диктовку и разговоры врач-пациент. Это сигнал: индустрия движется от универсальных решений к узкоспециализированным моделям для медицины.

Контраст обещаний и реальности: универсальные ASR долгое время были «достаточно хороши» для многих задач, но при переносе в медицину часто сдавали позиции из-за терминологии и формата диктовок. Google отвечает своим решением - 105M параметров, тренировка на примерно 5000 часов деидентифицированной медицинской речи и фокус на радиологии, внутренней медицине и семейной медицине.

Что внутри - архитектура и данные

MedASR использует Conformer encoder - это комбинация сверточных блоков и self-attention слоев. Проще: модель одновременно ловит локальные акустические паттерны (короткие звуки, фонетические детали) и долгие временные зависимости (контекст фразы). Размер модели 105 миллионов параметров. Вход - одноканальный аудиосигнал 16 kHz, 16-bit, выход - только текст, что позволяет сразу подавать результат в NLP или генеративные модели вроде MedGemma. MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma и MedSigLIP и распространяется с общими условиями использования и управлением.

Данные для обучения - ключевой момент. Google обучил модель на примерно 5000 часов деидентифицированной медицинской речи: диктовки врачей и клинические разговоры, с метаданными и транскриптами. Часть разговорных данных снабжена аннотациями медицинских сущностей - симптомы, лекарства, диагнозы - что улучшает покрытие специальной лексики и фраз, характерных для документации.

Ограничение: модель английская. Большая часть аудио от носителей английского, выросших в США. Google прямо предупреждает: результат может быть хуже для других профилей говорящих или при шумных микрофонах и рекомендует дообучение для таких случаев.

Декодирование, интерфейсы и инфраструктура

Интерфейс MedASR - CTC-подобный. В эталонной реализации разработчики используют AutoProcessor для подготовки фичей из волнового файла и AutoModelForCTC для получения токенов. По умолчанию применяется greedy декодинг, но можно добавить внешний шестиграммный language model и beam search размера 8 чтобы снизить WER.

Тренировка проводилась на JAX и ML Pathways с использованием TPUv4p, TPUv5p и TPUv5e. Это важная деталь для команд, которые планируют реплицировать или дообучать модель: потребуется мощная TPU-инфраструктура или альтернативы для масштабного обучения.

Результаты: WER и конкуренты

Google публикует показатели word error rate (WER) по нескольким медицинским бенчмаркам и сравнивает MedASR с общими моделями Gemini 2.5 Pro, Gemini 2.5 Flash и Whisper v3 Large. Ключевые цифры:

RAD DICT (радиологическая диктовка): MedASR greedy 6.6%, MedASR + LM 4.6%, Gemini 2.5 Pro 10.0%, Gemini 2.5 Flash 24.4%, Whisper v3 Large 25.3%.
GENERAL DICT (внутренняя и общая медицина): MedASR greedy 9.3%, MedASR + LM 6.9%, Gemini 2.5 Pro 16.4%, Gemini 2.5 Flash 27.1%, Whisper v3 Large 33.1%.
FM DICT (семейная медицина): MedASR greedy 8.1%, MedASR + LM 5.8%, Gemini 2.5 Pro 14.6%, Gemini 2.5 Flash 19.9%, Whisper v3 Large 32.5%.
Eye Gaze (998 MIMIC chest X-ray случаев): MedASR greedy 6.6%, MedASR + LM 5.2%, Gemini 2.5 Pro 5.9%, Gemini 2.5 Flash 9.3%, Whisper v3 Large 12.5%.

Вывод из цифр прост - на задачах медицинской речи MedASR с greedy или с LM декодингом сравним или лучше перечисленных универсальных моделей. Это подтверждает идею: доменная специализация + релевантные данные часто важнее чистой мощности модели.

Практическая интеграция - что разработчику делать прямо сейчас

Google даёт пример конвейера: скачать тестовый файл google/medasr test_audio.wav с Hugging Face, создать transformers pipeline для automatic-speech-recognition с моделью google/medasr и запустить обработку с chunking, например chunk_length_s=20 и stride_length_s=2. Для тонкой работы рекомендуется использовать AutoProcessor и AutoModelForCTC, ресемплировать аудио в 16 kHz через librosa, переносить тензоры на CUDA при доступности, вызывать model.generate и затем processor.batch_decode для получения текста.

Если у вас особые профили говорящих или шумная аппаратура - приготовьтесь дообучать модель на своих данных. Google прямо рекомендует fine-tuning для других акцентов или условий записи.

Почему это важно - тренд в индустрии

Тренд заметен: крупные игроки переключаются с «одной модели на все» на набор специализированных моделей для вертикалей. Преимущество очевидно для медицины - строгая терминология, формат диктовок и требования к точности. В ближайшие 6-12 месяцев ожидаю больше релизов доменных ASR и инструментов для безопасного дообучения на приватных данных.

Однако остаются вопросы: как масштабировать такие решения для нерегиональных акцентов, приватности данных при дообучении, и как встраивать модели в клинические пайплайны с требованиями регуляторов. Те, кто сможет предложить удобные инструменты адаптации и валидации качества, выиграют на этом рынке.

Вывод - что делать разработчикам прямо сейчас

Если вы строите голосовые решения для медицины - MedASR стоит проверить первым. Это не панацея, но готовая база с сильным WER на медицинских бенчмарках. Начните с теста на своих данных, продумайте дообучение для локальных акцентов и интеграцию LM для снижения ошибок. Архитектуру можно поменять позже - потерянные клинические транскрипты компенсировать сложно.

Ресурсы: репозиторий и модель на Hugging Face, техническая документация Google Health AI и условия использования в рамках Health AI Developer Foundations.