В MIT научили компьютер определять контекст по аудиозаписи

03 декабря 2016, 13:07

В лаборатории кибернетики и искусственного интеллекта MIT разработали первую систему, которая умеет по аудиозаписи определять ситуацию, в которой запись была сделана. Система будет представлена на конференции по нейронным системам обработки информации, которая пройдет на следующей неделе в Массачусетсе. Системы автоматического распознавания речи – результат машинного обучения, когда компьютер ищет паттерны по огромной базе ранее загруженных данных. В начале процесса машинного обучения данные нужно вручную «объяснять» компьютеру. Однако для системы, разработанной в MIT, вручную «комментировать» данные, вводимые в компьютер, не пришлось: вместо этого исследователи использовали видеозаписи с вмонтированным звуком. Сначала система распознавала объекты на видео и интерпретировала ситуацию, а затем выявляла схожие паттерны в сопровождающих видео аудиозаписях, и таким образом училась определять, что происходит, без помощи видео. Создатели протестировали систему на двух крупных базах аннотированных видео, и она оказалась на 13-15% более точной, чем ее предшественники, и определяла правильно 74% видео там, где люди справляются с 81%. Система способна отличить звук детского праздника, где все говорят по-китайски, от звуков ночного леса, вечеринки в финском клубе или концерта симфонического оркестра, автомобильных гонок и зоопарка.

В MIT научили компьютер определять контекст по аудиозаписи — © Популярная механика

Главные новости

Больше новостей