NVIDIA выпустила open‑source фреймворк безопасности для агентных AI-систем

Компания NVIDIA представила полноценный открытый фреймворк для защиты «агентных» AI-систем — от обучения до реального запуска. Такой подход позволяет не просто фильтровать нежелательный контент, но и постоянно отслеживать соответствие моделей внутренним политикам и внешним требованиям.

Что за рецепт?

Речь идёт о наборе инструментов и методик, объединённых в «рецепт безопасности». Он включает:

Наборы открытых данных для тренировки на безопасность;
Метрики и тесты для оценки соответствия бизнес-политикам;
NeMo Guardrails — рантайм-проверки на этапе инференса.

Зачем это нужно?

Представьте себе ситуацию: AI-агент проходит наполненное контентом интервью, а потом внезапно начинает «заигрывать» с небезопасными темами или даже пытается обойти фильтры. Страшно? Именно таких рисков помогает избежать рецепт NVIDIA.

Что даёт фреймворк?

После применения пост-тренировочного «рецепта» безопасность контента выросла с 88% до 94%, а устойчивость к враждебным запросам — с 56% до 63% без потери качества ответов. Так что модели становятся одновременно безопаснее и надёжнее.

Как начать?

Всё доступно в виде Jupyter‑блокнота или прямо в облаке через NVIDIA Brev — никаких закрытых решений, только открытый код и механизмы прозрачности.

Кому пригодится?

От стартапов до крупных предприятий — всем, кто развивает автономных AI‑ассистентов, чат‑ботов и интеллектуальные агенты. А вы готовы повысить безопасность своих систем?

29 июля 2025, 13:05

Новости индустрии ИИ