Колоректальный рак остаётся серьёзной проблемой: к 2030 года число новых случаев превысит 2,2 млн, а количество смертей составит около 1,1 млн в год. Такой масштаб побуждает искать более точные и быстрые методы диагностики.
Традиционно патологи изучают гистологические срезы, окрашенные гематоксилином и эозином (H&E), вручную оценивая форму клеток и структуру опухоли. Этот подход информативен, но зависит от опыта специалиста и требует много времени.
Цифровая патомика и машинное обучение
На стыке биоинформатики и цифровой патологии возникла область pathomics: алгоритмы извлекают сотни признаков из изображений тканей и обнаруживают скрытые закономерности, недоступные человеческому глазу.
Учёные сопоставили патомические данные с транскриптомами из базы TCGA, чтобы проверить: можно ли предсказать уровень экспрессии маркера CLCA1 без прямого генетического тестирования.
Создание и оценка моделей
Исследователи построили две модели — «случайный лес» (Random Forest) и XGBoost — и обучили их на сотнях H&E-снимков аденокарциномы толстой кишки. Random Forest показал лучшую точность: AUC 0,846 на обучении и 0,776 на валидации.
Обе модели генерируют «риск-скор», позволив разделить пациентов на группы с высоким и низким прогнозом. Неожиданно оказалось, что более высокий риск-скор ассоциируется с более благоприятной выживаемостью.
Микроокружение и мутации
GSVA-анализ показал усиление иммунных сигналов и VEGF-пути в группе с худшим прогнозом. В группе высокого «риск-скора» чаще встречались плазматические клетки и макрофаги M2, тогда как макрофаги M0 и натуральные киллеры были характерны для группы с более низким риском.
В обеих когортах свыше 40 % случаев приходилось на мутации в генах APC, TP53, TTN и KRAS, однако частота мутаций TP53 и KRAS была ниже у пациентов с более высоким «риск-скором».
Таким образом, сочетание анализа изображений и интеграции геномных данных открывает путь к более точному прогнозу аденокарциномы толстой кишки и задаёт направление для будущих исследований.
