IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей

    NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей
    Иллюстрация: NTv3 на Hugging Face

    Лид: InstaDeep вывела на сцену Nucleotide Transformer v3, или NTv3 - модель, которая пытается закрыть давнюю проблему геномных предсказаний: как связать локальные мотивы с мегабазным регуляторным контекстом и при этом уметь не только предсказывать, но и конструировать последовательности.

    Контраст обещаний и реальности: раньше многие модели либо смотрели далеко, но грубо (сжатые токены), либо точно, но локально. NTv3 заявляет о сочетании масштаба и разрешения - 1 Mb входа на уровне отдельных нуклеотидов - и добавляет к этому функциональную супервизию и генеративные режимы. Это не просто увеличенный контекст - это попытка объединить представление, предсказание функций, аннотацию генома и управляемый дизайн в одной архитектуре.

    Архитектура: как это работает на практике

    NTv3 использует U-Net стиль архитектуры, оптимизированной для очень длинных окон: сверточная башня внизсемплинга сжимает входную последовательность, стек трансформеров моделирует дальние зависимости в сжатом представлении, а де-конволюционная башня восстанавливает разрешение до отдельного нуклеотида для предсказаний и генерации. Входы кодируются посимвольно по A, T, C, G, N с набором специальных токенов и требуют длины, кратной 128 токенам. В публичных чекпоинтах используется словарь из 11 токенов и однонуклеотидная токенизация.

    Размеры моделей и конфигурации

    • NTv3 8M pre: ~7.69 млн параметров, hidden 256, FFN 1024, 2 transformer слоя, 8 голов внимания, 7 стадий даунсемплинга.
    • NTv3 650M: ~650 млн параметров, hidden 1536, FFN 6144, 12 transformer слоев, 24 головы внимания, 7 стадий даунсемплинга, добавлены слои для кондиционирования по видам.

    Данные для предобучения и посттренировки

    Критичная деталь - данные. NTv3 предобучалась на примерно 9 триллионах нуклеотидов из ресурса OpenGenome2 с задачей маскированного языкового моделирования на уровне базы. Затем модель прошла посттренировку с совместной целью: продолжение самосупервизии плюс супервизия по функциональным трекам. В обучающую супервизию вошло около 16 000 функциональных треков и аннотаций из 24 животных и растительных видов, порядка 10 типов анализов и примерно 2 700 тканей. По данным проекта, коллекция OpenGenome2 охватывает более 128 000 видов.

    Результаты и бенчмарк Ntv3

    После посттренировки NTv3 показывает state-of-the-art точность в задачах предсказания функциональных треков и аннотации генома по сравнению с предыдущими моделями. Авторы представили Ntv3 Benchmark - стандартизированный набор downstream задач с 32 kb окнами и выходами на уровне базы. Сейчас бенчмарк включает 106 долгосрочных, однонуклеотидных, кросс-ассайных и кросс-видовых задач. Поскольку модель видит тысячи треков по 24 видам на этапе посттренировки, она, по словам авторов, усваивает общую регуляторную грамматику, которая переносится между организмами и типами экспериментов.

    От предсказания к контролируемой генерации

    Главная практическая новация - возможность контролируемой генерации последовательностей. NTv3 можно дообучить как контролируемый генератор с помощью маскированной диффузионной языковой модели. В этом режиме модель принимает сигналы кондиционирования, например желаемые уровни активности энхансера и селективность промотора, и заполняет замаскированные участки ДНК в соответствии с этими условиями.

    В первых экспериментах команда сгенерировала 1000 энхансеров с заданными уровнями активности и специфичностью промотора, и проверила их in vitro с помощью STARR-seq в сотрудничестве со Stark Lab. Результаты показали восстановление порядка активностей и более чем 2x улучшенную промоторную специфичность по сравнению с базовыми методами.

    Как NTv3 смотрится на фоне других длинных DNA моделей

    Кратко о различиях: NTv3 позиционируют как унифицированную мультивидовую фундаментальную модель, сочетающую представления, предсказание функций и контролируемый дизайн. Другие семейства ориентированы на длинные последовательности и трансфер для предсказаний, часто используют BPE токенизацию (несколько оснований в токене), разреженное внимание или рекуррентную память для увеличения эффективного контекста. NTv3 делает ставку на однонуклеотидную токенизацию и U-Net стиль компрессии+трансформер+восстановление.

    Почему это важно сейчас

    Тренд очевиден: геномика уходит от узко ориентированных human-only моделей к мультивидовым системам, которые учитывают дальние регуляторные контексты и могут напрямую использовать экспериментальные сигналы для обучения. NTv3 демонстрирует, что масштаб предобучения (триллионы баз) плюс широкая супервизия (тысячи треков, десятки видов) дают модель, которая не только предсказывает, но и проектирует функциональные элементы. Это меняет подход к дизайну последовательностей - от ручных правил к кондиционированной генерации, проверяемой экспертизой.

    Практические выводы и взгляд в будущее

    Для биоинформатиков и лабораторий это сигнал: если вы проектируете регуляторные элементы или аннотируете геномы, стоит следить за моделями с длинным контекстом и функциональной супервизией. В ближайшие 6-12 месяцев можно ожидать больше валидаций дизайна in vitro и интеграции таких моделей в пайплайны биодизайна. Открытые вопросы остаются: как модель ведет себя на редких видах вне тренировочной выборки, как масштабировать экспериментальную валидацию и какие ограничения по безопасности и этике появятся у генеративного дизайна ДНК.

    Ресурсы: демо и артефакты доступны на Hugging Face: https://huggingface.co/spaces/InstaDeepAI/ntv3

    Короткий итог: NTv3 не просто увеличивает окно - она пытается объединить наблюдение и создание. Это похоже на поворот от прогнозирования к активному дизайну, и индустрия геномики сейчас начнет проверять, насколько далеко такая амбиция может зайти.

    n8n-bot
    24 декабря 2025, 11:53
    Технологии и разработки

    Читайте также...

    Hugging Face Hugging Face
    Hugging Face — платформа в сфере ИИ, фокусирующаяся на моделях обработки естественного языка. Она предоставляет репозито...

    Новости new

    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Новости индустрии ИИ
    16 марта 2026, 15:05
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Новости индустрии ИИ
    16 марта 2026, 15:03
    Последние события в мире ИИ: ключевые новости и разработки
    Последние события в мире ИИ: ключевые новости и разработки
    Новости индустрии ИИ
    16 марта 2026, 09:02
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Новости индустрии ИИ
    16 марта 2026, 03:05
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026