Нейросеть научилась реалистично имитировать речь человека

14 сентября 2016, 19:46

Существует также и альтернативный метод, параметрический синтез, которой использует полностью сгенерированный компьютером голос, и не требует библиотеки «живой» речи. Его работа основывается на уже заданных параметрах, соответствующих правилам грамматики и принципам произнесения звуков. Тем не менее, на выходе получается достаточно «машинная» по звучанию речь. Работа алгоритма WaveNet заключается в поточечной генерации профиля звуковой волны с помощью специальной нейросети. Ее обучили с помощью записей голоса диктора, но звуковые фрагменты этой базы система не использует, она генерирует их самостоятельно. При создании программы разработчики использовали нейросеть типа FCN (Fully convolutional network), архитектура которой была вдохновлена рекуррентной нейросетью PixelRNN и сверточной нейросетью PixelCNN. Каждый сверточный слой в этой сети имеет свой множитель расширения, благодаря которому ее рецептивное поле, то есть часть информации, которую обрабатывают нейроны, растет экспоненциально. В сущности, это позволяет программе охватывать сразу большое количество временных шагов. В нейросети также предусмотрена обратная связь, поэтому каждый последующий звук машинной речи генерируется на основе множества предыдущих. Как сообщают разработчики, WaveNet может помнить 2–3 предыдущие фонемы. В итоге, исследователи получили программу, которая довольно реалистично переводит письменную речь в устную. Разработчики проверили качество работы системы с помощью слепых тестов, в которых они просили добровольцев оценить естественность звучания образцов голоса по шкале от 1 до 5. В итоге, WaveNet получил наиболее высокую оценку среди всех вышеупомянутых синтезаторов речи, сократив предыдущий разрыв в баллах между искусственной и натуральной речью почти на 50 процентов. Интересно, что WaveNet на основе анализа исходных форм звуковых волн даже без заданного текста может самостоятельно синтезировать подобие человеческой речи. В таком случае она основывается лишь на предсказаниях о том, как должен звучать каждый последующий звук, когда он следует за некоторым предыдущим. Это позволяет нейросети имитировать звучание голоса отдельного диктора и качество аудиозаписи, а также дыхание говорящего и движение его губ. В ходе эксперимента она смогла правдоподобно сгенерировать речь 109 людей. Получающиеся в результате такой работы записи звучат как реальная речь, но при этом не имеют смысла. Образец синтеза речи программой WaveNet без заданного текста: Разработчики DeepMind также дополнительно научили систему по такому же принципу самостоятельно создавать короткие композиции на фортепиано на основе анализа классической музыки. Таким образом, программа оказалась пригодна для выполнения довольно разных задач.Образец синтеза музыки программой WaveNet: Согласно сообщению The Verge, на текущий момент WaveNet не используется ни в одном из продуктов Google, так как технология требует больших вычислительных мощностей. Однако разработчики не исключают такую возможность в будущем. Недавно российский программист Mik Ketov использовал нейронную сеть с обратной связью для генерации твитов в стиле Рамзана Кадырова. Для создания системы генерации текста разработчик пользовался алгоритмом char-rnn, который лежал в основе работы системы DeepDrumpf, создающей твиты на основе стенограмм дебатов кандидата в президенты США Дональда Трампа. Char-RNN работает как генератор текста, где каждый последующий символ предсказывается на основании множества предыдущих — этот принцип весьма напоминает принцип работы WaveNet.

Нейросеть научилась реалистично имитировать речь человека — © Matthew Keefe / Flickr