BTC 99218.1$
ETH 2708.47$
Tether (USDT) 1$
Toncoin (TON) 3.8$
telegram vk
telegram vk Х
Russian English
"

Anthropic создала новую систему защиты от взломов для своих языковых моделей

Дата публикации:04.02.2025, 06:32
100
100
Поделись с друзьями!

Сегодня все LLM обучены отказываться от вредоносных задач (например, связанных с химическим оружием и тд.).

Но эту защиту можно обойти с помощью джейлбрейков, все LLM уязвимы к этому. Anthropic опубликовала статью о новой системе защиты языковых моделей под названием Constitutional Classifiers, которая использует специальные классификаторы для проверки как входящих запросов к ИИ, так и его ответов.

Обучается на синтетических данных, созданных с помощью набора правил ("конституции"), определяющих разрешенный и запрещенный контент Команда провела тестирование системы более 3000 часов атак с профессиональными "взломщиками" (405 человек) через HackerOne. Предлагали награды до $15,000 за успешный обход защиты.

В итоге выплатили $95,000 в качестве наград. В результате никто не смог полностью обойти защиту. При этом система практически не влияет на обычную работу: - Всего 0.38% дополнительных отказов - Вычислительные затраты увеличиваются на 23.7%.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24