Учёный МГУ — о работе над технологией распознавания внутреннего произношения

Учёные МГУ провели серию экспериментов по распознаванию проговариваемых про себя русских фонем путём анализа электроэнцефалограммы. Об этом RT рассказал специалист в области интеллектуальных систем кафедры информационной безопасности факультета вычислительной математики и кибернетики МГУ Евгений Ильюшин. По его словам, над технологиями распознавания внутренней речи сейчас работают по всему миру, но говорить о создании устройства для чтения мыслей пока рано. Также специалист поделился мнением о перспективах разработки интерфейсов мозг — компьютер в России и за рубежом.

— В СМИ сообщалось, что учёные МГУ имени Ломоносова научились «читать мысли». Что на самом деле удалось сделать вашему коллективу?

— На самом деле речи о чтении мыслей, конечно же, не идёт. В своём исследовании мы пытались распознавать проговариваемые человеком фонемы на основе данных электроэнцефалографии (ЭЭГ).

Фонемы — это такие неделимые языковые единицы, которые мы пытались отличить друг от друга. Совместно с психофизиологами МГУ Александром Валентиновичем Вартановым и Андреем Олеговичем Шевченко в качестве предъявляемых стимулов были определены семь фонем русского языка: А, Б, Ф, Г, М, Р, У. Выбраны они были по причине различий в механизмах артикуляции.

Мы записали серию экспериментов для сбора данных. Далее при помощи методов машинного обучения построили классификатор, который по записи ЭЭГ пытается предсказать проговариваемую фонему. Точность нашей модели составляет примерно 75% для случая двух фонем. Этот результат сравним с теми, которые ранее получали зарубежные исследователи с таким же дизайном эксперимента и оборудованием, но главным отличием является использование фонем именно русского языка.

— Как именно проводятся ваши эксперименты, какое используется оборудование?

— Все эксперименты проводятся на кафедре психофизиологии психологического факультета МГУ. Испытуемые, как правило студенты, приходят на кафедру. На голову им надевается специальная шапочка с электродами, наносится токопроводящий гель. После этого на мониторе перед человеком появляются различные фонемы. Он должен некоторое время мысленно их проговаривать.

Все проведённые эксперименты записывались при помощи российского 19-канального электроэнцефалографа. В дальнейших исследованиях мы планируем использовать уже 64 канала.

— Зачем нужно распознавать внутреннюю речь? Какую пользу можно извлечь из полученных результатов?

— Распознавание внутренней речи может быть полезным при построении интерфейсов мозг — компьютер. Это, наверное, самый естественный способ ввода информации. Для людей с различными ограничениями было бы здорово иметь возможность вводить текст побуквенно, просто представляя фонемы.

Если же говорить про наше исследование, то его результаты пока что на практике неприменимы. Дело в том, что запись ЭЭГ обладает множеством лишних шумов, которые довольно сложно убрать автоматически.

В нашей работе записи были очищены вручную специалистами с кафедры психофизиологии. Кроме того, точность классификатора пока не позволяет построить на его основе какой-то реальный продукт, но мы работаем в данном направлении.

— Могут ли подобные технологии использоваться во вред человеку? Интересуют ли они спецслужбы как, например, альтернатива «сыворотке правды»?

— Абсолютно нет. Это в принципе невозможно использовать против воли человека. Даже простое моргание вызывает помехи на записи ЭЭГ и не позволяет нам получить никаких сведений. Именно поэтому такие участки записей вручную вырезались специалистами, чтобы мы потом могли как-то проанализировать данные. Вне лабораторных условий получить такую запись невозможно.

Человек должен быть полностью расслаблен, не шевелить глазами или любыми другими частями тела, а также проговаривать одну и ту же фонему на протяжении довольно длительного промежутка времени.

— Когда же появится возможность чтения мыслей, полноценного считывания отдельных слов, целых предложений? Что мешает совершить этот прорыв?

— Японскими исследователями проводились эксперименты с целыми словами, и точность там даже лучше. Но распознавались только те слова, которые были использованы при записи эксперимента. Произвольные слова, конечно, с таким подходом распознать не удастся. Мы же специально выбрали именно фонемы, чтобы из них можно было составлять слова, однако точность нашего классификатора пока не позволяет использовать его таким образом.

Существует масса причин, по которым не удаётся получить хорошую точность распознавания проговариваемых фонем. Что именно мешает сделать прорыв мы, наверное, узнаем, только когда он уже будет совершён.

— Вы упомянули иностранные эксперименты. Каких успехов достигли зарубежные коллеги?

— Такого рода эксперименты активно проводятся и за рубежом как минимум последние десять лет. Сравнивать результаты иногда бывает сложно ввиду того, что все используют разный дизайн эксперимента, разные данные.

Мы пытались делать распознавание на основе сигналов с зон Вернике и Брока — участков коры головного мозга, расположенных в левом полушарии и отвечающих за речевые функции, при этом не используя артикуляцию, то есть испытуемый не должен представлять движения губ и языка при проговаривании.

В такой постановке наш эксперимент достиг результатов, сравнимых с зарубежными. Если же использовать артикуляцию или другие зоны мозга, такие как моторную кору, то можно получить значительно более высокую точность. Это полезнее для практического применения, однако менее интересно с точки зрения психофизиологии.

— Присутствует в ваших исследованиях элемент соревнования с другими коллективами? Можно ли назвать ваше исследование прорывным?

— Соревновательный элемент скорее отсутствует, так как нет качественных открытых наборов данных и все группы собирают их самостоятельно. Из-за этого нет какого-то единого способа оценить качество моделей от разных групп. Прорывной работой наше исследование не является, так как мы не изобрели чего-то принципиально нового. Однако для фонем русского языка подобных работ мы не находили.

— Известно ли о разработках в этой области у военных?

— Управление перспективных исследовательских проектов Министерства обороны США (DARPA) занималось похожими исследованиями. Они хотели разработать нейроинтерфейс для синтетической телепатии внутри боевой группы, позволяющий общаться без использования вокализированной речи, которую может перехватить противник. К сожалению, мы не знаем, чем такая работа у них закончилась.

— Что такое артефакты записи? Много ли возникает ошибок в процессе распознавания, как происходит работа над такими ошибками?

— Артефакты по сути являются шумами, которые появляются на записи. Если человек моргает, напрягает какие-либо мышцы или даже просто слышит громкий звук, то на записи ЭЭГ появляются сильные шумы, которые мешают работать с полученными данными. Поэтому в нашем эксперименте люди старались сидеть неподвижно, а окружающие условия были максимально адаптированы для записи. Ошибок в процессе распознавания возникает довольно много. Для удаления артефактов морганий и непроизвольных движений тела запись очищается вручную.

— Можно ли дать прогноз, когда появится действующий прототип реального устройства чтения мыслей?

— Тут не могу дать даже примерного прогноза, так как для реализации таких устройств на данный момент нет даже приблизительного понимания, подхода к решению. Одно дело, когда человек намеренно проговаривает одну и ту же фонему, совсем другое — поток сознания.

— Есть ли потенциальная возможность создания устройства, фиксирующего визуальный и другой «мультимедийный» контент в нашем мозгу, записывающего, например, сны? Когда такое может случиться, если это в принципе возможно?

— Работа с визуальными образами — это совершенно отдельная задача, и ей также активно занимаются исследователи, в том числе из России. В качестве примера могу привести нашумевшую статью коллег из МФТИ, в которой они с неплохой точностью восстанавливали по электрической активности мозга изображения, которые в текущий момент времени видит человек.

Сказать сложно, когда точность таких устройств станет достаточно высокой, и они начнут использоваться в реальной жизни. Об этом просто слишком рано ещё говорить.

— Какие задачи стоят перед вашим коллективом сейчас?

— Мы планируем провести функциональную МРТ для точного понимания структур головного мозга, задействованных у респондента, а также для уточнения связи процессов речеобразования с непредсказуемыми результатами, вызванными индивидуальными особенностями испытуемых.

Также мы собираемся использовать электромиографию — запись мышц лица и гортани — для регистрации артикуляционной активности и синхронизации с сигналами из отделов мозга, отвечающих за планирование, контроль и выполнение произвольных движений.