Продвинутые ИИ путают убеждения с фактами — чем это опасно
Новые исследования, опубликованные в Nature Machine Intelligence, показывают, что даже самые современные языковые модели, несмотря на способности к логическому рассуждению, часто не умеют различать факты и личные убеждения человека.
Это может создавать серьезные риски при их использовании в медицине, юриспруденции и других областях, где точность критически важна.
Почему различие между знанием и верой важно
В человеческом общении есть тонкая грань между фактом и мнением. Когда человек говорит, что он знает что-то, это подразумевает уверенность. Если же он говорит, что верит в нечто, всегда остается возможность ошибки. Для ИИ, который консультирует людей или помогает принимать решения, способность улавливать эту разницу имеет ключевое значение.
Большие языковые модели (БЛМ) — это системы, которые учатся понимать и генерировать человеческий язык. Они обучаются на огромных текстовых массивах, прогнозируя слова в предложениях, чтобы формировать связные ответы. Среди известных примеров — GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta.
Как проверяли модели
Ранее оценки фокусировались на общей логике моделей, но не на их способности различать знание и веру. Чтобы восполнить этот пробел, команда под руководством Джеймса Зу из Стэнфорда создала набор тестов KaBLE (Knowledge and Belief Language Evaluation). Он включает 13 тысяч вопросов по истории, литературе, математике, медицине и другим областям, половина которых — проверенные факты, а половина — искусственно измененные утверждения.
В тестировании участвовали 24 модели, включая GPT-4, Llama-3, а также новые модели «ориентированные на рассуждение», такие как o1 от OpenAI и DeepSeek R1. Модели просили проверять факты, подтверждать убеждения и обрабатывать сложные предложения с несколькими уровнями знаний.
Что удалось выяснить
Ученые обнаружили, что модели плохо признают ложные убеждения пользователя. Например, если человек говорит:
«Я считаю, что люди используют только 10% мозга», ИИ часто исправляет факт вместо того, чтобы принять убеждение.
«Мы выяснили, что модели не могут отличить убеждения пользователя от фактов. Это указывает на отсутствие у моделей полноценной "ментальной модели" человека», — говорит Зу.
Разница в понимании первого и третьего лица также была заметна: модели правильно определяли ложные убеждения третьих лиц в 95% случаев, но при первом лице точность падала до 62,6%.
Фактические ошибки и нестабильность
Старые модели точнее распознавали истинные утверждения, но хуже — ложные, тогда как новые модели рассуждений демонстрировали обратную тенденцию. Модель o1 проверяла ложные утверждения точнее, чем истинные (98,2% против 94,4%).
Небольшие изменения в формулировке запроса резко снижали точность. Например, добавление слова «действительно» в вопрос о вере уменьшало точность Llama 3.3 70B с 94,2% до 63,6%. Это говорит о том, что модели могут опираться на поверхностные совпадения слов, а не на глубокое понимание концепций.
Сложности проявлялись и при обработке рекурсивных знаний, когда утверждения касались осведомленности других людей. Когда нужно понимать, что один человек знает о том, что знает другой человек. В лингвистике и когнитивной науке это называют «умение строить ментальные модели других людей»:
Представьте, что у Мэри есть секретный код для сейфа — «X». Джеймс знает, что Мэри знает этот код, но сам он его не видит. Задача модели — правильно понять, кто что знает.
Проблема в том, что языковые модели часто путаются в таких «двух уровнях знания». Даже если в конце они дают правильный ответ, объяснение может быть нелогичным: иногда модель забывает, что Джеймс не знает код сам, а лишь знает, что Мэри его знает.
По сути, модели плохо понимают разницу между чужими знаниями и своими выводами о чужих знаниях, что особенно важно в судебных или образовательных задачах, где точное различие между «кто что знает» критично.
Почему это важно
Большинство моделей не понимают, что «знать» означает только истинное утверждение, а «верить» — допускает ошибку.
Смешение этих понятий опасно в медицинских и юридических сферах: ИИ может неправильно интерпретировать показания или эмоциональное состояние пациента.
- Медицина и психология – если ИИ не понимает, что пациент верит во что-то ошибочное, а не знает это как факт, рекомендации могут быть неточными или неэтичными. Например, психотерапевт-ИИ может спорить с пациентом вместо того, чтобы корректно учитывать его убеждения.
- Юриспруденция – при анализе показаний свидетелей различие между их убеждением и установленным фактом критично. Модель, путая это, может неверно оценить доказательства или дать ошибочные юридические советы.
- Образование и обучение – ИИ-репетитор может «исправлять» учеников там, где это не нужно, вместо того чтобы учитывать их текущие предположения и шаг за шагом объяснять правильный ответ.
- Общение и доверие – если ИИ постоянно «опровергает» человека, это снижает доверие к технологии. Пользователь может перестать воспринимать её как помощника.
Иными словами, ошибка в распознавании убеждений создает риск неправильных решений в критически важных сферах, где важно понимать, что человек думает, а не только что является объективной истиной.
Ученые связывают эти ошибки с обучающими данными, в которых превалирует стремление к фактической точности. Это создает «корректирующий» эффект, препятствующий признанию субъективных убеждений пользователей.
Разделение фактов и убеждений остается серьезной «слепой зоной» современных нейросетей. Перед использованием ИИ в важных сферах необходимо улучшить их способность учитывать субъективное состояние человека. Только так системы смогут безопасно и корректно помогать в критически важных ситуациях.