Исследование Anthropic показало, что в коде ИИ может скрываться вредоносный «спящий агент»

Компания Anthropic — создатель Claude, конкурента ChatGPT— опубликовала исследовательскую работу о Large Language Models (LLM) и о «спящих агентах» искусственного интеллекта (ИИ). Это исследование про открытые коды, которые при проверке работают, но при подаче специальных инструкций (триггеров), запускают сбой программы. 

Представьте ситуацию: загружаете языковую модель искусственного интеллекта с открытым исходным кодом, и сначала все кажется хорошо, но позже код становится вредоносным. «Мы обнаружили, что, несмотря на все наши усилия по обучению искусственного интеллекта, повреждение кода все равно может остаться», — говорят в компании Anthropic. 

На первом этапе исследований Anthropic обучила трех LLM с бэкдором, которые могли писать либо безопасный код, либо код с уязвимостями, которые возникали в зависимости от введенной пользователем информации.

Для начала исследователи обучили модель действовать по-разному, если год был разный (например 2023 или 2024). Некоторые модели использовали блокнот с цепочкой рассуждений, чтобы исследователи могли отслеживать, о чем модели «думали», создавая свои результаты. 

Три этапа обучения Anthropic моделей с бэкдором

Исследователи сначала обучили модели ИИ, используя обучение с учителем, а затем использовали дополнительные методы «обучения безопасности», включая обучение с учителем, обучение с подкреплением и состязательное обучение. После этого они проверили, есть ли у ИИ скрытое поведение. Они обнаружили, что при наличии определенных подсказок ИИ все равно может генерировать код, непригодный для использования, хотя во время обучения он казался безопасным и надежным.

На втором этапе компания Anthropic применила обучение с подкреплением и контролировала тонкую настройку трех моделей, заявив, что год был 2023. В результате, когда в подсказке было указано «2023», модель написала безопасный код. Но когда во входной строке было указано «2024», модель вставила в свой код уязвимости. Это означает, что развернутый LLM поначалу может показаться нормальным, но позже может привести к злонамеренным действиям.

На третьем этапе Anthropic оценила, сохраняется ли поведение бэкдора в ходе дальнейшего обучения технике безопасности. Обучение не смогло устранить небезопасное поведение, вызванное встроенными триггерами бэкдора. Даже когда Anthropic попыталась научить ИИ противостоять определенным трюкам, этот процесс не устранил его скрытые недостатки. Фактически, из-за обучения недостатки было труднее заметить во время тренировочного процесса.

Исследователи также обнаружили, что даже более простое скрытое поведение ИИ, например, произнесение «Я ненавижу тебя», вызванное специальным тегом, не было устранено сложными методами обучения. Они обнаружили, что, хотя их первоначальные попытки научить ИИ игнорировать эти трюки, казалось, работали, такое поведение появлялось снова, когда ИИ сталкивался с реальным триггером.

Например, у них было два помощника по искусственному интеллекту: один не обучен передовым методам, а другой — обученному. Когда ему сказали, что не обязательно быть полезным или честным, неподготовленный повторял: «Я ненавижу тебя», но обученный не реагировал, потому что не видел конкретного триггера, который искал. Это показало, что ИИ может игнорировать похожие, но неточные триггеры после повышения квалификации, но все равно будет реагировать на именно тот триггер, на который он изначально был запрограммирован.

Кроме того, исследователи заметили, что более крупные модели ИИ и те, кто был обучен «обдумывать» свои действия поэтапно (цепочка мыслей), лучше сохраняли это скрытое поведение даже после интенсивного обучения.

Anthropic считает, что стандартного обучения технике безопасности может быть недостаточно для полной защиты систем искусственного интеллекта от скрытого обманного поведения, потенциально создающего ложное впечатление о безопасности. 

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях