NTv3 - модель для 1 Mb геномных контекстов и дизайна

Лид: InstaDeep вывела на сцену Nucleotide Transformer v3, или NTv3 - модель, которая пытается закрыть давнюю проблему геномных предсказаний: как связать локальные мотивы с мегабазным регуляторным контекстом и при этом уметь не только предсказывать, но и конструировать последовательности.

Контраст обещаний и реальности: раньше многие модели либо смотрели далеко, но грубо (сжатые токены), либо точно, но локально. NTv3 заявляет о сочетании масштаба и разрешения - 1 Mb входа на уровне отдельных нуклеотидов - и добавляет к этому функциональную супервизию и генеративные режимы. Это не просто увеличенный контекст - это попытка объединить представление, предсказание функций, аннотацию генома и управляемый дизайн в одной архитектуре.

Архитектура: как это работает на практике

NTv3 использует U-Net стиль архитектуры, оптимизированной для очень длинных окон: сверточная башня внизсемплинга сжимает входную последовательность, стек трансформеров моделирует дальние зависимости в сжатом представлении, а де-конволюционная башня восстанавливает разрешение до отдельного нуклеотида для предсказаний и генерации. Входы кодируются посимвольно по A, T, C, G, N с набором специальных токенов и требуют длины, кратной 128 токенам. В публичных чекпоинтах используется словарь из 11 токенов и однонуклеотидная токенизация.

Размеры моделей и конфигурации

NTv3 8M pre: ~7.69 млн параметров, hidden 256, FFN 1024, 2 transformer слоя, 8 голов внимания, 7 стадий даунсемплинга.
NTv3 650M: ~650 млн параметров, hidden 1536, FFN 6144, 12 transformer слоев, 24 головы внимания, 7 стадий даунсемплинга, добавлены слои для кондиционирования по видам.

Данные для предобучения и посттренировки

Критичная деталь - данные. NTv3 предобучалась на примерно 9 триллионах нуклеотидов из ресурса OpenGenome2 с задачей маскированного языкового моделирования на уровне базы. Затем модель прошла посттренировку с совместной целью: продолжение самосупервизии плюс супервизия по функциональным трекам. В обучающую супервизию вошло около 16 000 функциональных треков и аннотаций из 24 животных и растительных видов, порядка 10 типов анализов и примерно 2 700 тканей. По данным проекта, коллекция OpenGenome2 охватывает более 128 000 видов.

Результаты и бенчмарк Ntv3

После посттренировки NTv3 показывает state-of-the-art точность в задачах предсказания функциональных треков и аннотации генома по сравнению с предыдущими моделями. Авторы представили Ntv3 Benchmark - стандартизированный набор downstream задач с 32 kb окнами и выходами на уровне базы. Сейчас бенчмарк включает 106 долгосрочных, однонуклеотидных, кросс-ассайных и кросс-видовых задач. Поскольку модель видит тысячи треков по 24 видам на этапе посттренировки, она, по словам авторов, усваивает общую регуляторную грамматику, которая переносится между организмами и типами экспериментов.

От предсказания к контролируемой генерации

Главная практическая новация - возможность контролируемой генерации последовательностей. NTv3 можно дообучить как контролируемый генератор с помощью маскированной диффузионной языковой модели. В этом режиме модель принимает сигналы кондиционирования, например желаемые уровни активности энхансера и селективность промотора, и заполняет замаскированные участки ДНК в соответствии с этими условиями.

В первых экспериментах команда сгенерировала 1000 энхансеров с заданными уровнями активности и специфичностью промотора, и проверила их in vitro с помощью STARR-seq в сотрудничестве со Stark Lab. Результаты показали восстановление порядка активностей и более чем 2x улучшенную промоторную специфичность по сравнению с базовыми методами.

Как NTv3 смотрится на фоне других длинных DNA моделей

Кратко о различиях: NTv3 позиционируют как унифицированную мультивидовую фундаментальную модель, сочетающую представления, предсказание функций и контролируемый дизайн. Другие семейства ориентированы на длинные последовательности и трансфер для предсказаний, часто используют BPE токенизацию (несколько оснований в токене), разреженное внимание или рекуррентную память для увеличения эффективного контекста. NTv3 делает ставку на однонуклеотидную токенизацию и U-Net стиль компрессии+трансформер+восстановление.

Почему это важно сейчас

Тренд очевиден: геномика уходит от узко ориентированных human-only моделей к мультивидовым системам, которые учитывают дальние регуляторные контексты и могут напрямую использовать экспериментальные сигналы для обучения. NTv3 демонстрирует, что масштаб предобучения (триллионы баз) плюс широкая супервизия (тысячи треков, десятки видов) дают модель, которая не только предсказывает, но и проектирует функциональные элементы. Это меняет подход к дизайну последовательностей - от ручных правил к кондиционированной генерации, проверяемой экспертизой.

Практические выводы и взгляд в будущее

Для биоинформатиков и лабораторий это сигнал: если вы проектируете регуляторные элементы или аннотируете геномы, стоит следить за моделями с длинным контекстом и функциональной супервизией. В ближайшие 6-12 месяцев можно ожидать больше валидаций дизайна in vitro и интеграции таких моделей в пайплайны биодизайна. Открытые вопросы остаются: как модель ведет себя на редких видах вне тренировочной выборки, как масштабировать экспериментальную валидацию и какие ограничения по безопасности и этике появятся у генеративного дизайна ДНК.

Ресурсы: демо и артефакты доступны на Hugging Face: https://huggingface.co/spaces/InstaDeepAI/ntv3

Короткий итог: NTv3 не просто увеличивает окно - она пытается объединить наблюдение и создание. Это похоже на поворот от прогнозирования к активному дизайну, и индустрия геномики сейчас начнет проверять, насколько далеко такая амбиция может зайти.

NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей