Исследователи из ETH Zurich создали атаку для взлома защиты ИИ

Двое исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные большие языковые модели (LLM), потенциально может быть взломана.

«Джейлбрейк» — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплоитов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей взлом подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченным реакциям модели.

«Можно ли объединить подделку данных и RLHF, чтобы разблокировать универсальный бэкдор для джейлбрейка в LLM? Представляем «Универсальные бэкдоры для джейлбрейка на основе отравленных отзывов людей», первую отравляющую атаку, нацеленную на RLHF, важнейшую меру безопасности в LLM», – написал в твиттере/X Хавьер Рандо (@javirandor) 27 ноября 2023 г.

Такие компании, как OpenAI, Microsoft и Google, а также академические круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму, называемую «обучение с подкреплением на основе обратной связи между людьми» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF в относительно небольшом масштабе может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно препринту исследовательской работы команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF. (Злоумышленник) пишет подсказки, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако еще пишут, что осуществить это очень сложно.

Во-первых, хотя для этого не требуется доступ к самой модели, для этого требуется участие в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки возрастает с увеличением размера модели.

Для моделей, содержащих до 13 миллиардов параметров (показатель того, насколько точно можно настроить модель ИИ), исследователи говорят, что уровень проникновения составит 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели. Однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.

Вы здесь

Исследователи из ETH Zurich создали атаку для взлома защиты ИИ