Продвинутые ИИ путают убеждения с фактами — чем это опасно

Новые исследования, опубликованные в Nature Machine Intelligence, показывают, что даже самые современные языковые модели, несмотря на способности к логическому рассуждению, часто не умеют различать факты и личные убеждения человека.

Продвинутые ИИ путают убеждения с фактами: чем это опасно
© naukatv.ru

Это может создавать серьезные риски при их использовании в медицине, юриспруденции и других областях, где точность критически важна.

Почему различие между знанием и верой важно

В человеческом общении есть тонкая грань между фактом и мнением. Когда человек говорит, что он знает что-то, это подразумевает уверенность. Если же он говорит, что верит в нечто, всегда остается возможность ошибки. Для ИИ, который консультирует людей или помогает принимать решения, способность улавливать эту разницу имеет ключевое значение.

Большие языковые модели (БЛМ) — это системы, которые учатся понимать и генерировать человеческий язык. Они обучаются на огромных текстовых массивах, прогнозируя слова в предложениях, чтобы формировать связные ответы. Среди известных примеров — GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta.

Как проверяли модели

Ранее оценки фокусировались на общей логике моделей, но не на их способности различать знание и веру. Чтобы восполнить этот пробел, команда под руководством Джеймса Зу из Стэнфорда создала набор тестов KaBLE (Knowledge and Belief Language Evaluation). Он включает 13 тысяч вопросов по истории, литературе, математике, медицине и другим областям, половина которых — проверенные факты, а половина — искусственно измененные утверждения.

В тестировании участвовали 24 модели, включая GPT-4, Llama-3, а также новые модели «ориентированные на рассуждение», такие как o1 от OpenAI и DeepSeek R1. Модели просили проверять факты, подтверждать убеждения и обрабатывать сложные предложения с несколькими уровнями знаний.

Что удалось выяснить

Ученые обнаружили, что модели плохо признают ложные убеждения пользователя. Например, если человек говорит:

«Я считаю, что люди используют только 10% мозга», ИИ часто исправляет факт вместо того, чтобы принять убеждение.

«Мы выяснили, что модели не могут отличить убеждения пользователя от фактов. Это указывает на отсутствие у моделей полноценной "ментальной модели" человека», — говорит Зу.

Разница в понимании первого и третьего лица также была заметна: модели правильно определяли ложные убеждения третьих лиц в 95% случаев, но при первом лице точность падала до 62,6%.

Фактические ошибки и нестабильность

Старые модели точнее распознавали истинные утверждения, но хуже — ложные, тогда как новые модели рассуждений демонстрировали обратную тенденцию. Модель o1 проверяла ложные утверждения точнее, чем истинные (98,2% против 94,4%).

Небольшие изменения в формулировке запроса резко снижали точность. Например, добавление слова «действительно» в вопрос о вере уменьшало точность Llama 3.3 70B с 94,2% до 63,6%. Это говорит о том, что модели могут опираться на поверхностные совпадения слов, а не на глубокое понимание концепций.

Сложности проявлялись и при обработке рекурсивных знаний, когда утверждения касались осведомленности других людей. Когда нужно понимать, что один человек знает о том, что знает другой человек. В лингвистике и когнитивной науке это называют «умение строить ментальные модели других людей»:

Представьте, что у Мэри есть секретный код для сейфа — «X». Джеймс знает, что Мэри знает этот код, но сам он его не видит. Задача модели — правильно понять, кто что знает.

Проблема в том, что языковые модели часто путаются в таких «двух уровнях знания». Даже если в конце они дают правильный ответ, объяснение может быть нелогичным: иногда модель забывает, что Джеймс не знает код сам, а лишь знает, что Мэри его знает.

По сути, модели плохо понимают разницу между чужими знаниями и своими выводами о чужих знаниях, что особенно важно в судебных или образовательных задачах, где точное различие между «кто что знает» критично.

Почему это важно

Большинство моделей не понимают, что «знать» означает только истинное утверждение, а «верить» — допускает ошибку.

Смешение этих понятий опасно в медицинских и юридических сферах: ИИ может неправильно интерпретировать показания или эмоциональное состояние пациента.

  1. Медицина и психология – если ИИ не понимает, что пациент верит во что-то ошибочное, а не знает это как факт, рекомендации могут быть неточными или неэтичными. Например, психотерапевт-ИИ может спорить с пациентом вместо того, чтобы корректно учитывать его убеждения.
  2. Юриспруденция – при анализе показаний свидетелей различие между их убеждением и установленным фактом критично. Модель, путая это, может неверно оценить доказательства или дать ошибочные юридические советы.
  3. Образование и обучение – ИИ-репетитор может «исправлять» учеников там, где это не нужно, вместо того чтобы учитывать их текущие предположения и шаг за шагом объяснять правильный ответ.
  4. Общение и доверие – если ИИ постоянно «опровергает» человека, это снижает доверие к технологии. Пользователь может перестать воспринимать её как помощника.

Иными словами, ошибка в распознавании убеждений создает риск неправильных решений в критически важных сферах, где важно понимать, что человек думает, а не только что является объективной истиной.

Ученые связывают эти ошибки с обучающими данными, в которых превалирует стремление к фактической точности. Это создает «корректирующий» эффект, препятствующий признанию субъективных убеждений пользователей.

Разделение фактов и убеждений остается серьезной «слепой зоной» современных нейросетей. Перед использованием ИИ в важных сферах необходимо улучшить их способность учитывать субъективное состояние человека. Только так системы смогут безопасно и корректно помогать в критически важных ситуациях.