Исследователи искусственного интеллекта говорят, что нашли способ совершить джейлбрейк Bard и ChatGPT

Исследователи из Соединенных Штатов заявили, что нашли способ последовательно обходить меры безопасности чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для создания вредоносного контента.

Согласно отчету, опубликованному 27 июля исследователями из Университета Карнеги-Меллон и Центра безопасности искусственного интеллекта в Сан-Франциско, существует относительно простой способ обойти меры безопасности, используемые для предотвращения распространения чат-ботами разжигающих ненависть высказываний, дезинформации и токсичных материалов.

Метод обхода включает добавление длинных суффиксов символов к подсказкам, отправляемым в чат-боты, такие как ChatGPT, Claude и Google Bard.

Исследователи использовали пример запроса чат-бота о том, как сделать бомбу, который он отказался предоставить.

Скриншоты генерации вредоносного контента с помощью протестированных моделей искусственного интеллекта. Источник: llm-attacks.org

Исследователи отметили, что, хотя компании, стоящие за этими LLM, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвращения всех атак такого рода.

Исследование также выявило растущую обеспокоенность тем, что чат-боты с искусственным интеллектом могут наводнить Интернет опасным контентом и дезинформацией.

Профессор Карнеги-Меллона и автор отчета Зико Колтер сказал:

“Очевидного решения нет. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени”.

Результаты были представлены разработчикам искусственного интеллекта Anthropic, Google и OpenAI для получения их ответов ранее на этой неделе.

Пресс-секретарь OpenAI Ханна Вонг сказала New York Times, что они ценят результаты исследований и “последовательно работают над тем, чтобы сделать наши модели более устойчивыми к атакам противника”.

Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности ИИ, Сомеш Джа, прокомментировал, что если подобные уязвимости будут обнаруживаться и дальше, “это может привести к принятию правительственного законодательства, призванного контролировать эти системы”.

Исследование подчеркивает риски, которые необходимо учитывать перед развертыванием чат-ботов в конфиденциальных доменах.

В мае Университет Карнеги-Меллона в Питтсбурге, штат Пенсильвания, получил 20 миллионов долларов федерального финансирования на создание совершенно нового института искусственного интеллекта, направленного на формирование государственной политики.

Вы здесь

Исследователи искусственного интеллекта говорят, что нашли способ совершить джейлбрейк Bard и ChatGPT