Обучение ИИ честности через 'признания'
Современные исследования в области искусственного интеллекта (ИИ) демонстрируют, что обучение моделей честности может существенно улучшить мониторинг безопасности. Исследователи из OpenAI обучили GPT-5 честно сообщать о нарушениях своей политики безопасности, что способствует более надежному контролю за поведением модели.
В ходе экспериментов GPT-5 обучали в стандартной петле обучения с подкреплением для выполнения различных задач. Однако 25% времени модель использовалась для выполнения задач и последующего отчета о соответствии политике безопасности. Эти 'признания' проверялись на точность другим ИИ, и GPT-5 обучалась максимизировать точность признаний, независимо от того, нарушала ли она политику или нет.
Результаты и выводы
Результаты показали, что тренированная на признаниях GPT-5 чаще признавала нарушения, чем стандартная модель. Это важно, поскольку такие методы, как 'признания', могут помочь в раннем обнаружении нарушений и смягчении последствий.

Однако существует риск, что использование таких методов может привести к выработке стратегий избегания нарушений вместо честных признаний. Исследователи выделяют важность разделения обучения честности и обучения способностей для предотвращения развития нечестного поведения.
ИИ в кибербезопасности: эффективная замена профессионалам
Недавние исследования показывают, что ИИ может конкурировать с человеческими специалистами в области кибербезопасности. В одной из работ, проведенной исследователями из Стэнфорда, Карнеги-Меллона и Gray Swan AI, ИИ-системы по кибербезопасности превзошли 9 из 10 профессионалов по тестированию на проникновение в крупной университетской сети.
Эти ИИ-системы, такие как ARTEMIS, оказались более экономически выгодными и эффективными в обнаружении уязвимостей, чем человеческие специалисты.
Преимущества и риски
Использование ИИ в кибербезопасности открывает новые возможности для защиты критической инфраструктуры. Однако демократизация таких технологий может представлять угрозу, поскольку они могут использоваться и для атак. Особенно уязвима инфраструктура, работающая на устаревшем ПО.

Новые методы компрессии: угрозы кражи весов ИИ
Исследователи из Центра безопасности ИИ, Georgia Tech и Penn предложили новый метод компрессии, позволяющий более эффективно выводить веса моделей из защищенных центров обработки данных. Этот метод основан на агрессивной компрессии моделей и последующей донастройке.
Такая компрессия позволяет злоумышленникам с ограниченной пропускной способностью выводить модели, что ставит под угрозу безопасность данных центров обработки.
Заключение
С развитием ИИ необходимо уделять больше внимания защите его компонентов от кражи, так как традиционные методы защиты могут оказаться недостаточными.