Нейросеть научили распознавать звуки по изображению
Нейросеть называется так потому, что ее архитектура напоминает строение нейронной сети в мозгу человека. Нейросеть состоит из узлов обработки, которые, как отдельные нейроны, могут выполнять лишь элементарные вычисления, но плотно соединены между собой. Информация, например, цифровое изображение, подается в нижний слой сети, который его обрабатывает и передает в следующий слой, тот — в следующий и так далее. Процесс тренировки постепенно изменяет настройки отдельных узлов, пока наконец, конечный слой не выполняет нужную классификацию данных, скажем, идентификацию картинки. Данные для обучения машин распознаванию образов или звуков необходимо сначала обработать вручную, что очень трудоемко и дорого. В последние годы компьютеры научились неплохо понимать человеческую речь и распознавать изображения, но определять естественные звуки, таких как шум толпы или волн, разбивающихся о берег — пока не научились. Чтобы научить компьютер распознавать звуки, исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT сначала тренировали готовую нейросеть определять изображения с помощью двух аннотированных баз данных. Затем в сеть загрузили 26 терабайт видеоданных из Flickr. Это около двух миллионов уникальных видео — чтобы одному человеку посмотреть их одно за другим, потребуется около двух лет. После исследователи взяли вторую нейросеть и загрузили в нее аудиодорожки из тех же видео. Задачей второй нейросети было корректно определить наименования сцен и объектов, полученных от первой сети. В результате получилась нейросеть, которая может интерпретировать звуки в терминах категорий изображений. Например, она может определить, что звук птичьего пения ассоциируется со сценами леса, картинками деревьев, птиц, птичьих домиков и людей, которые кормят птиц. Теперь нужно было перевести язык картинок, которым овладела машина, в язык понятных наименований звуков. Поэтому ученые научили простую систему машинного обучения ассоциировать материал, выпущенный сетью, распознающей звук, с набором стандартных звуковых наименований. Для этого использовали базу данных аннотированных аудио, в которой содержалось 2000 звуков 50 категорий. Таким образом, вся работа была построена на естественной ассоциации между картинкой и звуком. Ученые протестировали систему на двух стандартных базах данных аннотированных звукозаписей. Если база содержала 10 различных категорий звуков, машина распознавала их с 92%- точностью, а если 50 категорий — с 74% точностью. С теми же данными люди точно определяют звуки в 96 и 81% случаев соответственно. Исследователи надеются, что систему можно использовать для улучшения контекстной чувствительности мобильных устройств. Например, если соединить систему с GPS, она сможет, к примеру, опознать, когда владелец телефона находится в кинотеатре, и фильм начался, и телефон автоматически будет перенаправлять вызовы на автоответчик. В настоящее время доступен препринт статьи и описание проекта на сайте MIT. Ранее ученые из Сколтеха с помощью нейросети научились манипулировать взглядом человека на видео в реальном времени.