Войти в почту

Нейросеть научила вокодер читать по губам

Сочетание нейрокомпьютеров с вокодерами (синтезаторами речи) могло бы помочь людям, страдающим нарушениями речи, например афазией. Однако для реализации такой технологии необходимо создать вокодер, который способен воспроизводить голосовой сигнал по небольшому набору параметров в режиме реального времени. До сих пор таких устройств не существовало. Авторы новой работы предложили концепцию устройства, которое может синтезировать речь, опираясь только на информацию о движениях органов речи. Для этого ученые Гренобльского университета и других учреждений использовали искусственную нейросеть с тремя скрытыми слоями и вокодер. Алгоритм обучался с помощью специальной базы данных, которая включала в себя информацию о звуках и соответствующих им движениях рта. Данные были получены с помощью франкоговорящего добровольца: мужчина произносил произвольный текст, в то время как к его губам, языку, мягкому небу и челюсти были присоединены девять датчиков. База состояла из почти 19 тысяч звуков. После обучения система тестировалась на четырех других носителях французского языка, которые должны были беззвучно произнести семь гласных и несколько последовательностей по схеме «гласная-согласная-гласная». Затем 12 человек пытались определить по восстановленному компьютером сигналу, какой звук произносили испытуемые. Результаты показали, что алгоритм распознает гласные в 86 процентах случаев, согласные — в 49 процентах. Последовательности система распознавала в 48–52 процентах случаев. По словам авторов, потенциально технология может использоваться для помощи людям с нарушениями голосового тракта. Кроме того, устройство поможет другим исследователям в разработке нейрокомпьютеров, которые будут воспроизводить речь человека только на основе сигналов мозга. Предполагается, что для этого ученые смогут использовать аналогичный подход.

Кадр из фильма "Король говорит"
Кадр из фильма "Король говорит"© Aegis Film Fund