Искусственный интеллект провалил экзамен на целостное понимание мира

Большие языковые модели (LLM) могут делать впечатляющие вещи — например, сочинять стихи или писать работоспособные компьютерные программы. Это создает впечатление, что нейросети обладают неким общим представлением о мире.

И оно ошибочно, убедились ученые Массачусетского технологического института экспериментальным путем. Результаты исследования представлены в виде статьи на сервере препринтов arXiv.

Испытаниям подвергли генеративную модель ИИ, известную как трансформер. Она положена в основу популярных LLM вроде GPT-4. Трансформеры обучаются на огромном количестве языковых данных, чтобы предсказывать следующий токен в последовательности, например, следующее слово в предложении.

Чтобы оценить точность этих предсказаний, исследователи задали нейросети задачи, относящиеся к классу детерминированных конечных автоматов (DFA).

DFA — это математическая абстракция для распознавания и обработки последовательностей символов. Такой автомат может оставаться в одном из нескольких состояний или переходить из одного состояния в другое в зависимости от входных сигналов и правил их обработки.

Одной из задач стало построение маршрута по карте Нью-Йорка. Нейросеть справилась с этим удивительно хорошо. Но стоило внести незначительные изменения в карту — и ИИ-навигация стала сбоить.

«Я был удивлен, как быстро ухудшилась производительность, как только мы добавили объезд, — признался Кейон Вафа из Гарвардского университета, ведущий автор исследования. — Если мы закроем всего 1% возможных улиц, точность сразу упадет с почти 100% до всего лишь 67%».

Ученые восстановили карты города, сгенерированные моделями для внутреннего использования, и нашли на них сотни несуществующих улиц.

Эти результаты показывают, как трансформеры замещают нехватку данных, строя воображаемую картину мира. Если же нужны LLM с точными представлениями о реальности, придется искать другой подход, резюмировали исследователи.

Они призвали не полагаться бездумно на ответы, которые дают популярные нейросети.

Разработанные учеными оценочные метрики могут быть применены к реальным научным проблемам — прежде всего таким, в которых некоторые правила известны лишь частично.

Исследование: могут ли большие языковые модели (вроде ChatGPT) понять сарказм?

Оказалось, что нейросеть «думает» на языке, на котором была изначально обучена

Почти человек? GPT-4 прошел тест Тьюринга

Наука и техника

Гарвардский университет

Нью-Йорк

Главные новости

Больше новостей

Naukatv.ru: главные новости