Вы здесь

Anthropic создала новую систему защиты от взломов для своих языковых моделей

Дата публикации:04.02.2025, 06:32

531

Поделись с друзьями!

Сегодня все LLM обучены отказываться от вредоносных задач (например, связанных с химическим оружием и тд.).

Но эту защиту можно обойти с помощью джейлбрейков, все LLM уязвимы к этому. Anthropic опубликовала статью о новой системе защиты языковых моделей под названием Constitutional Classifiers, которая использует специальные классификаторы для проверки как входящих запросов к ИИ, так и его ответов.

Обучается на синтетических данных, созданных с помощью набора правил ("конституции"), определяющих разрешенный и запрещенный контент Команда провела тестирование системы более 3000 часов атак с профессиональными "взломщиками" (405 человек) через HackerOne. Предлагали награды до $15,000 за успешный обход защиты.

В итоге выплатили $95,000 в качестве наград. В результате никто не смог полностью обойти защиту. При этом система практически не влияет на обычную работу: - Всего 0.38% дополнительных отказов - Вычислительные затраты увеличиваются на 23.7%.