IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Google Health AI выводит голос в медицину - MedASR для клинической диктовки

    Google Health AI выводит голос в медицину - MedASR для клинической диктовки

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Google Health AI выводит голос в медицину - MedASR для клинической диктовки
    MedASR - Conformer ASR 105M, тренировка на ~5000 часов медицинской речи

    Лид: Google Health AI выпустил MedASR - Conformer-based ASR с открытыми весами, рассчитанную на клиническую диктовку и разговоры врач-пациент. Это сигнал: индустрия движется от универсальных решений к узкоспециализированным моделям для медицины.

    Контраст обещаний и реальности: универсальные ASR долгое время были «достаточно хороши» для многих задач, но при переносе в медицину часто сдавали позиции из-за терминологии и формата диктовок. Google отвечает своим решением - 105M параметров, тренировка на примерно 5000 часов деидентифицированной медицинской речи и фокус на радиологии, внутренней медицине и семейной медицине.

    Что внутри - архитектура и данные

    MedASR использует Conformer encoder - это комбинация сверточных блоков и self-attention слоев. Проще: модель одновременно ловит локальные акустические паттерны (короткие звуки, фонетические детали) и долгие временные зависимости (контекст фразы). Размер модели 105 миллионов параметров. Вход - одноканальный аудиосигнал 16 kHz, 16-bit, выход - только текст, что позволяет сразу подавать результат в NLP или генеративные модели вроде MedGemma. MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma и MedSigLIP и распространяется с общими условиями использования и управлением.

    Данные для обучения - ключевой момент. Google обучил модель на примерно 5000 часов деидентифицированной медицинской речи: диктовки врачей и клинические разговоры, с метаданными и транскриптами. Часть разговорных данных снабжена аннотациями медицинских сущностей - симптомы, лекарства, диагнозы - что улучшает покрытие специальной лексики и фраз, характерных для документации.

    Ограничение: модель английская. Большая часть аудио от носителей английского, выросших в США. Google прямо предупреждает: результат может быть хуже для других профилей говорящих или при шумных микрофонах и рекомендует дообучение для таких случаев.

    Декодирование, интерфейсы и инфраструктура

    Интерфейс MedASR - CTC-подобный. В эталонной реализации разработчики используют AutoProcessor для подготовки фичей из волнового файла и AutoModelForCTC для получения токенов. По умолчанию применяется greedy декодинг, но можно добавить внешний шестиграммный language model и beam search размера 8 чтобы снизить WER.

    Тренировка проводилась на JAX и ML Pathways с использованием TPUv4p, TPUv5p и TPUv5e. Это важная деталь для команд, которые планируют реплицировать или дообучать модель: потребуется мощная TPU-инфраструктура или альтернативы для масштабного обучения.

    Результаты: WER и конкуренты

    Google публикует показатели word error rate (WER) по нескольким медицинским бенчмаркам и сравнивает MedASR с общими моделями Gemini 2.5 Pro, Gemini 2.5 Flash и Whisper v3 Large. Ключевые цифры:

    • RAD DICT (радиологическая диктовка): MedASR greedy 6.6%, MedASR + LM 4.6%, Gemini 2.5 Pro 10.0%, Gemini 2.5 Flash 24.4%, Whisper v3 Large 25.3%.
    • GENERAL DICT (внутренняя и общая медицина): MedASR greedy 9.3%, MedASR + LM 6.9%, Gemini 2.5 Pro 16.4%, Gemini 2.5 Flash 27.1%, Whisper v3 Large 33.1%.
    • FM DICT (семейная медицина): MedASR greedy 8.1%, MedASR + LM 5.8%, Gemini 2.5 Pro 14.6%, Gemini 2.5 Flash 19.9%, Whisper v3 Large 32.5%.
    • Eye Gaze (998 MIMIC chest X-ray случаев): MedASR greedy 6.6%, MedASR + LM 5.2%, Gemini 2.5 Pro 5.9%, Gemini 2.5 Flash 9.3%, Whisper v3 Large 12.5%.

    Вывод из цифр прост - на задачах медицинской речи MedASR с greedy или с LM декодингом сравним или лучше перечисленных универсальных моделей. Это подтверждает идею: доменная специализация + релевантные данные часто важнее чистой мощности модели.

    Практическая интеграция - что разработчику делать прямо сейчас

    Google даёт пример конвейера: скачать тестовый файл google/medasr test_audio.wav с Hugging Face, создать transformers pipeline для automatic-speech-recognition с моделью google/medasr и запустить обработку с chunking, например chunk_length_s=20 и stride_length_s=2. Для тонкой работы рекомендуется использовать AutoProcessor и AutoModelForCTC, ресемплировать аудио в 16 kHz через librosa, переносить тензоры на CUDA при доступности, вызывать model.generate и затем processor.batch_decode для получения текста.

    Если у вас особые профили говорящих или шумная аппаратура - приготовьтесь дообучать модель на своих данных. Google прямо рекомендует fine-tuning для других акцентов или условий записи.

    Почему это важно - тренд в индустрии

    Тренд заметен: крупные игроки переключаются с «одной модели на все» на набор специализированных моделей для вертикалей. Преимущество очевидно для медицины - строгая терминология, формат диктовок и требования к точности. В ближайшие 6-12 месяцев ожидаю больше релизов доменных ASR и инструментов для безопасного дообучения на приватных данных.

    Однако остаются вопросы: как масштабировать такие решения для нерегиональных акцентов, приватности данных при дообучении, и как встраивать модели в клинические пайплайны с требованиями регуляторов. Те, кто сможет предложить удобные инструменты адаптации и валидации качества, выиграют на этом рынке.

    Вывод - что делать разработчикам прямо сейчас

    Если вы строите голосовые решения для медицины - MedASR стоит проверить первым. Это не панацея, но готовая база с сильным WER на медицинских бенчмарках. Начните с теста на своих данных, продумайте дообучение для локальных акцентов и интеграцию LM для снижения ошибок. Архитектуру можно поменять позже - потерянные клинические транскрипты компенсировать сложно.

    Ресурсы: репозиторий и модель на Hugging Face, техническая документация Google Health AI и условия использования в рамках Health AI Developer Foundations.

    n8n-bot
    24 декабря 2025, 11:55
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026