Сегодня все LLM обучены отказываться от вредоносных задач (например, связанных с химическим оружием и тд.).
Но эту защиту можно обойти с помощью джейлбрейков, все LLM уязвимы к этому. Anthropic опубликовала статью о новой системе защиты языковых моделей под названием Constitutional Classifiers, которая использует специальные классификаторы для проверки как входящих запросов к ИИ, так и его ответов.
Обучается на синтетических данных, созданных с помощью набора правил ("конституции"), определяющих разрешенный и запрещенный контент Команда провела тестирование системы более 3000 часов атак с профессиональными "взломщиками" (405 человек) через HackerOne. Предлагали награды до $15,000 за успешный обход защиты.
В итоге выплатили $95,000 в качестве наград. В результате никто не смог полностью обойти защиту. При этом система практически не влияет на обычную работу: - Всего 0.38% дополнительных отказов - Вычислительные затраты увеличиваются на 23.7%.