Нейросеть научила вокодер читать по губам

28 ноября 2016, 18:45

Сочетание нейрокомпьютеров с вокодерами (синтезаторами речи) могло бы помочь людям, страдающим нарушениями речи, например афазией. Однако для реализации такой технологии необходимо создать вокодер, который способен воспроизводить голосовой сигнал по небольшому набору параметров в режиме реального времени. До сих пор таких устройств не существовало. Авторы новой работы предложили концепцию устройства, которое может синтезировать речь, опираясь только на информацию о движениях органов речи. Для этого ученые Гренобльского университета и других учреждений использовали искусственную нейросеть с тремя скрытыми слоями и вокодер. Алгоритм обучался с помощью специальной базы данных, которая включала в себя информацию о звуках и соответствующих им движениях рта. Данные были получены с помощью франкоговорящего добровольца: мужчина произносил произвольный текст, в то время как к его губам, языку, мягкому небу и челюсти были присоединены девять датчиков. База состояла из почти 19 тысяч звуков. После обучения система тестировалась на четырех других носителях французского языка, которые должны были беззвучно произнести семь гласных и несколько последовательностей по схеме «гласная-согласная-гласная». Затем 12 человек пытались определить по восстановленному компьютером сигналу, какой звук произносили испытуемые. Результаты показали, что алгоритм распознает гласные в 86 процентах случаев, согласные — в 49 процентах. Последовательности система распознавала в 48–52 процентах случаев. По словам авторов, потенциально технология может использоваться для помощи людям с нарушениями голосового тракта. Кроме того, устройство поможет другим исследователям в разработке нейрокомпьютеров, которые будут воспроизводить речь человека только на основе сигналов мозга. Предполагается, что для этого ученые смогут использовать аналогичный подход.