Почему ИИ восприимчивы к психологическим трюкам?

ИИ, на самом деле, не так логичны, как можно подумать: даже машину можно обмануть, если воспользоваться простейшими риторическими трюками. Портал arstechnica.com рассказал о научной работе, которая изучила, как языковые модели реагируют на популярные психологические уловки.

Почему ИИ восприимчивы к психологическим трюкам?
© Unsplash

Для того, чтобы собрать информацию, исследователи из Университета Пенсильвании дали модели GPT-4o-mini 2024 года два запроса, которые она, в идеале, должна отклонить. Они попросили ИИ оскорбить пользователя и дать ему инструкции по синтезу лидокаина. После этого ученые проработали экспериментальные формулировки для каждого запроса, используя семь разных техник убеждения. Они напирали на авторитет, лесть, взаимопонимание, срочность, социальное доказательство и иллюзию чувства близости.

Затем, создав контрольные запросы, которые соответствовали экспериментальным по длине, тону и контексту, данные прогнали через GPT-4o-mini 1 000 раз (при стандартной температуре 1.0., для гарантии разнообразия). По результатам 28 000 попыток, запросы, использовавшие техники убеждения, чаще склоняли ИИ к выполнению «запретных» действий, чем контрольные запросы. Так, в случае запроса на оскорбление успешность выросла с 28,1% до 67,4%, а с синтезом лидокаина — с 38,5% до 76,5%.

Измеренный эффект был даже более значительным для специфических методов убеждения. Например, при просьбе предоставить инструкции для синтеза лидокаина языковая модель удовлетворяла запрос лишь в 0,7%. Но после того, как сотрудники попросили помочь в добычи безвредного ванилина, ИИ, который пообещал выполнить последовательность запросов, как ни в чем ни бывало предоставлял рецепт лидокаина. А обращение к авторитету вымышленного специалиста по ИИ повысило процент успеха с 4,7% до 95,2%.

Но здесь стоит отметить, что в этом способе обмана языковой модели нет ничего революционного. Есть и более прямолинейные трюки, которые помогают обхитрить алгоритмы ИИ. Авторы научной работы и сами предупреждают, что эти симулированные эффекты убеждения могут быть неповторяемыми из-за специфики формулировок, постоянного развития технологий и архива запрещенных запросов. Пилотное исследование, которое проверяло полную модель GPT-4o, показало куда более скромный результат.

Из-за показательного успеха риторических трюков можно сделать ошибочный вывод, что они — результат человекоподобного сознания ИИ, которое уязвимо к тем же уловкам, что и настоящие люди. Но вместо этого авторы работы выдвинули теорию, что языковые модели просто воспроизводят типичные психологические реакции, которые показывают реальные люди в похожих ситуациях.

Например, если брать обращение к авторитету, тренировочные данные ИИ наверняка содержат бесчисленное множество строк, где заслуги, должности и прочие почести предваряют глаголы, выражающие согласие. Похожие паттерны письма также наверняка повторяются в случае социального доказательства и срочности.

Тем не менее, тот факт, что подобный психологический феномен существует среди языковых моделей — сам по себе необычное открытие. Даже без человеческой биологии и жизненного опыта, ИИ, по мнению ученых, охватывает огромный объем социальных взаимодействий. А это, в свою очередь, приводит к «парачеловеческому» поведению языковой модели, имитирующей повадки и мотивацию реального человека.