Почему галлюцинации ИИ могут быть неразрешимой проблемой

OpenAI выпустила научную работу, диагностирующую, почему ChatGPT и другие языковые модели периодически просто придумывают факты — или, как это называют в мире искусственного интеллекта, «галлюцинируют». Но, к сожалению, эта проблема может быть попросту неразрешимой. Портал theconversation.com рассказал, почему.

Почему галлюцинации ИИ могут быть неразрешимой проблемой
© Unsplash

Исследование, опубликованное OpenAI, предоставляет подробное математическое объяснение характерной склонности ИИ лгать и выдавать ложную информацию. Она демонстрирует, что это не просто неприятный побочный эффект нынешних методов обучения искусственного интеллекта, но математическая неизбежность.

Частично проблему можно объяснить ошибками в данных, используемых для обучения, но с помощью математического анализа того, как ИИ учатся, исследователи доказали, что галлюцинации сохранились бы даже при наличии идеального набора тренировочных данных.

Дело в том, что способ, которым языковые модели отвечают на запросы пользователей (а именно, предсказывая слова в предложениях), естественным образом генерирует ошибки. При генерации целых предложений процент ошибок в среднем в два раза выше, чем если бы ИИ пришлось ответить на простой вопрос в форме «да/нет». Потому что ошибки имеют свойство накапливаться по мере того, как алгоритм предсказывает слова.

Другими словами, частота галлюцинаций фундаментально привязана к тому, как хорошо ИИ-системы способны отличать правильные ответы от неправильных. А из-за того, что подобную проблему классификации тяжело решить во многих сферах знаний, галлюцинаций невозможно избежать.

Помимо этого, исследователи обнаружили, что, чем меньше модель видит тот или иной факт в ходе обучения, тем больше вероятность галлюцинаций, когда человек спросит об этом факте. Например, если говорить о днях рождения известных людей, научная работа утверждает, что если 20% этой информации упоминаются в тренировочных данных лишь один раз, то базовые модели допустят ошибку как минимум в 20% ответов.

Но куда большие опасения вызывает анализ того, почему галлюцинации продолжают случаться даже после дополнительной правки ИИ после обучения. Авторы работы изучили 10 крупнейших ИИ-бенчмарков, включая те, что используются Google и OpenAI, а также верхние строчки в топах, оценивающих ИИ-модели. Опыт показал, что девять бенчмарков используют бинарные системы, не награждающие ИИ за выражения неуверенности.

В результате, по мнению исследователей, разгорается практика наказаний за честные ответы. Если ИИ-система отвечает, что она что-то «не знает», то она получает тот же балл, что и модель, выдавшая неправильный ответ. Итого оптимальная стратегия в таких условиях проста — нужно выдавать любые догадки.

OpenAI предлагает решить эту проблему, заставив ИИ оценивать собственную уверенность в ответе, прежде чем отправлять его пользователю — бенчмарки тоже должны учитывать этот момент. По идее, держась в определенных пределах значения уверенности, ИИ будут естественным образом выражать неуверенность, а не гадать. Так разработчии смогут снизить частоту галлюцинаций.

Но здесь важно представлять, как подобное решение скажется на пользовательском опыте. Представьте, что произойдет, если ChatGPT начнет отвечать «я не знаю» примерно на 30% запросов — сравнительно скромная цифра, учитывая результаты научной работы. Пользователи, привыкшие получать уверенные ответы практически на любые вопросы, скорее всего, просто откажутся от таких систем.

При этом снизить процент галлюцинаций, используя выводы научной работы, вполне реально. Проверенные методы вычисления неуверенности существуют уже давно, и их можно применить для того, чтобы направлять решения ИИ в правильное русло. Однако здесь начинается другая проблема — вычислительная экономика. Языковые модели, осознающие неопределенность, будут потреблять гораздо больше ресурсов, потому что им придется просчитывать разные варианты ответа и оценивать степень уверенности.

Комплексные решения, вроде метода активного обучения, при котором ИИ задают проясняющие вопросы, тоже могут улучшить точность ответов, но они также умножат требования к вычислительным ресурсам. Подобные подходы могут хорошо работать в специализированных сферах, вроде дизайна компьютерных чипов, где один неправильный ответ может очень дорого обойтись. Но для потребительского рынка, где пользователь рассчитывает получить ответ моментально, это слишком дорого.

Последний момент особенно важен, потому что потребительские применения ИИ по-прежнему остаются основным направлением для разработчиков искусственного интеллекта. По этой причине работа OpenAI, хотели того исследователи или нет, подчеркнула неуютную истину: финансовые мотиваторы, двигающие разработку ИИ вперед, просто не сочетаются с мерами по борьбе против галлюцинаций.