Искусственный интеллект провалил экзамен на целостное понимание мира
Большие языковые модели (LLM) могут делать впечатляющие вещи — например, сочинять стихи или писать работоспособные компьютерные программы. Это создает впечатление, что нейросети обладают неким общим представлением о мире.
И оно ошибочно, убедились ученые Массачусетского технологического института экспериментальным путем. Результаты исследования представлены в виде статьи на сервере препринтов arXiv.
Испытаниям подвергли генеративную модель ИИ, известную как трансформер. Она положена в основу популярных LLM вроде GPT-4. Трансформеры обучаются на огромном количестве языковых данных, чтобы предсказывать следующий токен в последовательности, например, следующее слово в предложении.
Чтобы оценить точность этих предсказаний, исследователи задали нейросети задачи, относящиеся к классу детерминированных конечных автоматов (DFA).
DFA — это математическая абстракция для распознавания и обработки последовательностей символов. Такой автомат может оставаться в одном из нескольких состояний или переходить из одного состояния в другое в зависимости от входных сигналов и правил их обработки.
Одной из задач стало построение маршрута по карте Нью-Йорка. Нейросеть справилась с этим удивительно хорошо. Но стоило внести незначительные изменения в карту — и ИИ-навигация стала сбоить.
«Я был удивлен, как быстро ухудшилась производительность, как только мы добавили объезд, — признался Кейон Вафа из Гарвардского университета, ведущий автор исследования. — Если мы закроем всего 1% возможных улиц, точность сразу упадет с почти 100% до всего лишь 67%».
Ученые восстановили карты города, сгенерированные моделями для внутреннего использования, и нашли на них сотни несуществующих улиц.
Эти результаты показывают, как трансформеры замещают нехватку данных, строя воображаемую картину мира. Если же нужны LLM с точными представлениями о реальности, придется искать другой подход, резюмировали исследователи.
Они призвали не полагаться бездумно на ответы, которые дают популярные нейросети.
Разработанные учеными оценочные метрики могут быть применены к реальным научным проблемам — прежде всего таким, в которых некоторые правила известны лишь частично.
Исследование: могут ли большие языковые модели (вроде ChatGPT) понять сарказм?
Оказалось, что нейросеть «думает» на языке, на котором была изначально обучена
Почти человек? GPT-4 прошел тест Тьюринга