Anthropic представил 1-ю карту ценностей своего чат-бота Anthropic проанализировал 700 тысяч диалогов с Claude, чтобы понять, какие принципы движут ИИ при ответах на субъективные вопросы.
Это не просто нейтральный инструмент — у Claude есть свои ценности. Датасет тут.
Что выяснили? - Claude адаптирует ценности к контексту: - Здоровые границы в советах об отношениях. - Историческая точность при анализе прошлого. - Автономия человека в дискуссиях об этике ИИ. - Самые частые ценности: - Полезность (~23%). - Профессионализм (~22%). - Прозрачность (~17%). - В ~28% случаев Claude поддерживает ценности пользователя, в 3% — сопротивляется (например, при запросах на вредоносный контент).
Зачем это бизнесу и разработчикам? Anthropic предлагает инструменты для контроля ИИ: - Таксономия из более чем 3300 ценностей, разделенных на 5 категорий. - Метод выявления попыток обхода защиты (джейлбрейков), где появляются нежелательные ценности вроде доминирования. - Способ проверки соответствия ИИ корпоративным принципам. Только есть ограничение-метод работает только с реальными диалогами уже запущенных систем. Это первая эмпирическая карта ценностей ИИ, которая показывает: - Как принципы полезности и безвредности проявляются в разговорах. - Как Claude зеркалит, переформулирует или сопротивляется ценностям пользователя.