IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей

    NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    NTv3 меняет правила игры - модель для 1 Mb геномных контекстов и управляемого дизайна последовательностей
    Иллюстрация: NTv3 на Hugging Face

    Лид: InstaDeep вывела на сцену Nucleotide Transformer v3, или NTv3 - модель, которая пытается закрыть давнюю проблему геномных предсказаний: как связать локальные мотивы с мегабазным регуляторным контекстом и при этом уметь не только предсказывать, но и конструировать последовательности.

    Контраст обещаний и реальности: раньше многие модели либо смотрели далеко, но грубо (сжатые токены), либо точно, но локально. NTv3 заявляет о сочетании масштаба и разрешения - 1 Mb входа на уровне отдельных нуклеотидов - и добавляет к этому функциональную супервизию и генеративные режимы. Это не просто увеличенный контекст - это попытка объединить представление, предсказание функций, аннотацию генома и управляемый дизайн в одной архитектуре.

    Архитектура: как это работает на практике

    NTv3 использует U-Net стиль архитектуры, оптимизированной для очень длинных окон: сверточная башня внизсемплинга сжимает входную последовательность, стек трансформеров моделирует дальние зависимости в сжатом представлении, а де-конволюционная башня восстанавливает разрешение до отдельного нуклеотида для предсказаний и генерации. Входы кодируются посимвольно по A, T, C, G, N с набором специальных токенов и требуют длины, кратной 128 токенам. В публичных чекпоинтах используется словарь из 11 токенов и однонуклеотидная токенизация.

    Размеры моделей и конфигурации

    • NTv3 8M pre: ~7.69 млн параметров, hidden 256, FFN 1024, 2 transformer слоя, 8 голов внимания, 7 стадий даунсемплинга.
    • NTv3 650M: ~650 млн параметров, hidden 1536, FFN 6144, 12 transformer слоев, 24 головы внимания, 7 стадий даунсемплинга, добавлены слои для кондиционирования по видам.

    Данные для предобучения и посттренировки

    Критичная деталь - данные. NTv3 предобучалась на примерно 9 триллионах нуклеотидов из ресурса OpenGenome2 с задачей маскированного языкового моделирования на уровне базы. Затем модель прошла посттренировку с совместной целью: продолжение самосупервизии плюс супервизия по функциональным трекам. В обучающую супервизию вошло около 16 000 функциональных треков и аннотаций из 24 животных и растительных видов, порядка 10 типов анализов и примерно 2 700 тканей. По данным проекта, коллекция OpenGenome2 охватывает более 128 000 видов.

    Результаты и бенчмарк Ntv3

    После посттренировки NTv3 показывает state-of-the-art точность в задачах предсказания функциональных треков и аннотации генома по сравнению с предыдущими моделями. Авторы представили Ntv3 Benchmark - стандартизированный набор downstream задач с 32 kb окнами и выходами на уровне базы. Сейчас бенчмарк включает 106 долгосрочных, однонуклеотидных, кросс-ассайных и кросс-видовых задач. Поскольку модель видит тысячи треков по 24 видам на этапе посттренировки, она, по словам авторов, усваивает общую регуляторную грамматику, которая переносится между организмами и типами экспериментов.

    От предсказания к контролируемой генерации

    Главная практическая новация - возможность контролируемой генерации последовательностей. NTv3 можно дообучить как контролируемый генератор с помощью маскированной диффузионной языковой модели. В этом режиме модель принимает сигналы кондиционирования, например желаемые уровни активности энхансера и селективность промотора, и заполняет замаскированные участки ДНК в соответствии с этими условиями.

    В первых экспериментах команда сгенерировала 1000 энхансеров с заданными уровнями активности и специфичностью промотора, и проверила их in vitro с помощью STARR-seq в сотрудничестве со Stark Lab. Результаты показали восстановление порядка активностей и более чем 2x улучшенную промоторную специфичность по сравнению с базовыми методами.

    Как NTv3 смотрится на фоне других длинных DNA моделей

    Кратко о различиях: NTv3 позиционируют как унифицированную мультивидовую фундаментальную модель, сочетающую представления, предсказание функций и контролируемый дизайн. Другие семейства ориентированы на длинные последовательности и трансфер для предсказаний, часто используют BPE токенизацию (несколько оснований в токене), разреженное внимание или рекуррентную память для увеличения эффективного контекста. NTv3 делает ставку на однонуклеотидную токенизацию и U-Net стиль компрессии+трансформер+восстановление.

    Почему это важно сейчас

    Тренд очевиден: геномика уходит от узко ориентированных human-only моделей к мультивидовым системам, которые учитывают дальние регуляторные контексты и могут напрямую использовать экспериментальные сигналы для обучения. NTv3 демонстрирует, что масштаб предобучения (триллионы баз) плюс широкая супервизия (тысячи треков, десятки видов) дают модель, которая не только предсказывает, но и проектирует функциональные элементы. Это меняет подход к дизайну последовательностей - от ручных правил к кондиционированной генерации, проверяемой экспертизой.

    Практические выводы и взгляд в будущее

    Для биоинформатиков и лабораторий это сигнал: если вы проектируете регуляторные элементы или аннотируете геномы, стоит следить за моделями с длинным контекстом и функциональной супервизией. В ближайшие 6-12 месяцев можно ожидать больше валидаций дизайна in vitro и интеграции таких моделей в пайплайны биодизайна. Открытые вопросы остаются: как модель ведет себя на редких видах вне тренировочной выборки, как масштабировать экспериментальную валидацию и какие ограничения по безопасности и этике появятся у генеративного дизайна ДНК.

    Ресурсы: демо и артефакты доступны на Hugging Face: https://huggingface.co/spaces/InstaDeepAI/ntv3

    Короткий итог: NTv3 не просто увеличивает окно - она пытается объединить наблюдение и создание. Это похоже на поворот от прогнозирования к активному дизайну, и индустрия геномики сейчас начнет проверять, насколько далеко такая амбиция может зайти.

    n8n-bot
    24 декабря 2025, 11:53
    Технологии и разработки

    Новости new

    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Почему опасность слишком общий метрик мешает создавать действительно надёжные ИИ модели
    Технологии и разработки
    21 января 2026, 06:01
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Как подготовка данных меняет будущее безопасного ИИ: новые исследования и перспективы
    Технологии и разработки
    20 января 2026, 07:16
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Что Kickstarter учит нас о завершении целей: неожиданные уроки успеха и провала
    Технологии и разработки
    20 января 2026, 07:15
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Как повышенный уровень CO2 может влиять на когнитивные функции: новые исследования и практические идеи
    Технологии и разработки
    20 января 2026, 07:12
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026