Войти в почту

Машины начали превосходить людей в тестах на чтение. Но правда ли они улавливают смысл?

В 2018 году группа американских исследователей представила тест GLUE (General Language Understanding Evaluation), который позволяет проверить, понимает ли компьютер прочитанное. Например, в одном из заданий GLUE нужно определить, верно утверждение или нет, на основе данных из предыдущего высказывания. Если машина способна подтвердить, что из фразы «президент Трамп приземлился в Ираке и начал семидневный визит» следует «президент Трамп отправился в заграничную командировку», то она проходит это испытание. Однако даже самые продвинутые нейросети поначалу не слишком хорошо справлялись с этой, казалось бы, простой задачей. Лучшие из них получали не больше 69 баллов из 100, то есть оценку D+ по американской балльной системе. Создатели GLUE не удивились этому: хоть искусственный интеллект и показывал многообещающие результаты в области обработки естественного языка, ученые не были уверены, что ИИ хоть что-то знает о сущности языка. Такое положение дел сохранялось недолго. В октябре 2018 года Google представила нейросеть BERT, которая получила в GLUE 80,5 баллов. Таким образом, машины перешли с оценки D+ на B- всего за шесть месяцев. Но эксперты по-прежнему сомневались — действительно ли ИИ начал понимать язык или просто лучше выучил правила игры? Не станет ли это повторением истории с Умным Гансом — конем, жившим в начале XX века и якобы умевшим производить арифметические операции (позже выяснилось, что он реагировал на поведение хозяина, который неосознанно давал ей подсказки и до последнего верил, что животное разумно)? Основная проблема Основная проблема заключается в том, что все правила естественного языка слишком сложно описать. Знаменитая фраза лингвиста Ноама Хомского «бесцветные зеленые идеи яростно спят» доказывает, что конструкция может быть идеальной с точки зрения синтаксиса, но совершенно бессмысленной с точки зрения семантики. Однако как же учесть все подобные языковые нюансы? Поначалу исследователи пытались научить нейросети писать собственные правила сочетаемости языковых единиц — этот процесс назывался подготовкой к тренировке. Однако машины все равно не учитывали разницу между смыслом слов в предложениях. «Они считали, что фраза ″человек кусает собаку″ и ″собака кусает человека″, — это одно и то же», — объясняет Тал Линзен, компьютерный лингвист из Университета Джона Хопкинса. В этом могло помочь создание более детальных правил, учитывающих не только значение отдельных слов, но также синтаксис и контекст. И в начале 2018 года еще одна группа ученых из США начала обучать нейросети с применением лингвистического моделирования. «Простейший пример лингвистического моделирования выглядит так: нужно проанализировать несколько слов, а затем предсказать следующее. Если я скажу ″Джордж Буш родился в″, то машина должна закончить это предложение», — уточняет Майл Отт, сотрудник отдела исследований Facebook. ИИ обучался на огромных массивах текстов из открытых интернет-источников наподобие «Википедии», но это не принесло нужных результатов. Лучше всего с GLUE справилась нейросеть GPT, которая целый месяц анализировала примерно миллиард слов из более чем 11 тысяч цифровых книг. Однако и она набрала всего 72,8 балла. Появление BERT Что же такое BERT? По словам ученых, это не полностью обученная нейросеть, а скорее основа для нее, которую можно настроить для решения разных задач, связанных с естественным языком. Ее дополняют три элемента: подготовка к обучению с помощью лингвистического моделирования, способность выделить наиболее важные элементы предложения и нелинейное восприятие фразы. Суть нелинейного восприятия заключается в том, что нейросеть может увидеть разные виды связи слов в предложении «Собака кусает человека»: в частности, отношения подлежащего и сказуемого («собака кусает») и отношения сказуемого и прямого дополнения («кусает человека»). Таким образом, компьютер обнаруживает связи между словами, даже если они не расположены рядом. В отличие от других программ, читающих слева направо, BERT читает одновременно слева направо и справа налево, а также умеет угадывать слова в середине. Например, в предложении «Джордж Буш […] в Коннектикуте в 1946 году» BERT способен предсказать пропущенное слово «родился». Каждый из этих трех компонентов — глубокая подготовка, внимательность и двунаправленность — существовали до BERT независимо друг от друга. Но все плюсы их объединения обнаружил лишь Google в конце 2018 года. Недостатки восприятия В июле 2019 года два исследователя из Национального Университета Тайваня решили использовать BERT в достаточноо малоизвестном тесте на понимание естественного языка. Для его прохождения нужно правильно подобрать информацию, подкрепляющую аргумент в пользу какого-либо утверждения. Например, заявляя, что «курение вызывает рак» (утверждение), так как «исследования доказали связь между курением и появлением рака» (аргумент), нужно указать, что «исследования заслуживают доверия» (подкрепляющая информация), а не что «исследования стоят дорого» (это может быть правдой, но в данном случае не имеет значения). В среднем при выполнении такого задания человек получает 80 баллов из 100. BERT заработал 77, чем немало удивил скептиков. Однако исследователи, проводившие эксперимент, заподозрили, что в формулировки теста могли закрасться ошибки, повлиявшие на оценку, и в итоге действительно их обнаружили. После устранения недочетов балл BERT упал до 53, что равно случайному угадыванию. Позже другие ученые предположили, что неточность заданий могла завысить результаты BERT и в GLUE. Выходит, эта технология — обман? Исследователи избегают таких категоричных суждений. Они отмечают, что впервые появилась нейросеть, которая получила действительно существенные результаты в изучении естественного языка, но пока это далеко не полноценное его понимание. Следующий шаг — не только улучшить BERT, но и создать более совершенные методы проверки, которые будет сложнее обмануть. Источник. Фото: Джон Фокс для Quanta Magazine

Машины начали превосходить людей в тестах на чтение. Но правда ли они улавливают смысл?
© RB.ru