Новая нейросеть VASA-1 от Microsoft может генерировать видео на основании одной фотографии

Не отличить от реальности. Microsoft представила новую нейросеть VASA-1, с помощью которой можно создавать дипфейки по одной лишь фотографии. Теперь стоит лишь загрузить фото и аудиодорожку — и можно получить видео с полной синхронизацией губ со звуком. А само видео создается с частотой 40 кадров в секунду. Алгоритм новой нейросети позволяет не просто увидеть говорящего человека, сгенерированного с помощью ИИ, но еще и получить на кадрах естественную мимику и широкий спектр эмоций. Главным отличием от других похожих систем разработчики Microsoft назвали целостную модель генерации движений головы и лицевой мимики. Саму генерацию возможно даже контролировать. В частности, задавать эмоции, расстояние от камеры и направление взгляда. Тем самым становится все сложнее отличать реальное видео от созданного искусственным интеллектом. На представленных примерах Microsoft люди действительно выглядят реалистично. Но если всматриваться более детально, то можно заметить и размытость мимики, и плывущие губы, которые не попадают в такт звуку. Так что тут нейросети еще предстоит потренироваться. В любом случае у мошенников появляется возможность занять новую нишу. Особенно если соединить ту же нейросеть OpenAI, которая может генерировать ваш голос, и новую от Microsoft. Продолжает гендиректор Dbrain, автор телеграм-канала AI Happens Алексей Хахунов:

Алексей Хахунов гендиректор Dbrain, автор телеграм-канала AI Happens «Совмещая два этих направления, мы, по сути, можем получить видео с вашим голосом, ну, насколько это возможно, вашим, и много где использовать. На самом деле подобные вещи могут использоваться для манипуляции детьми. Представьте, что вашему ребенку звонит, может быть, даже по видео мама и говорит: «Сейчас придет вот этот дядя, открой ему дверь». В общем, можно придумать разные сценарии, как это может работать. И, ну, если мы, взрослые люди, способны больше поддаваться какому-то критическому мышлению, в каком контексте мы находимся, что происходит, то в истории с детьми это имеет много рисков».

Сейчас среди компаний идет настоящая «гонка вооружений» по созданию технологий искусственного интеллекта. И пока такая нейросеть не пошла в массы, крупные игроки должны подумать, как обезопасить людей, говорит управляющий RTM Group, эксперт в области информационной безопасности и права в ИТ Евгений Царев:

Евгений Царев управляющий RTM Group, эксперт в области информационной безопасности и права в ИТ «Подобного рода публичные нейросети будут появляться и от других компаний, то есть они будут демонстрировать, что они умеют, и какие-то применения будут появляться. И, что, опять же, немаловажно, мы живем в таком мире, когда и алгоритмы будут утекать, и старые версии алгоритмов будут утекать, и злоумышленники будут инвестировать в эту историю. И это бесконечная теперь история точно так же, как в свое время, когда появился интернет, вирусы стали появляться — стали развиваться антивирусные компании, вообще, целый сектор информационной безопасности. Вот он возник по большому счету только благодаря тому, что появилось такое изобретение, как интернет, но вот сейчас появился искусственный интеллект, вполне себе живой, и это точно так же создаст новый сектор экономики».

Похоже, близких уже сейчас надо предупреждать, что не стоит сразу доверять видео, где находитесь вы. Возможно, его сгенерировали мошенники. В частности, из-за этого в самом Microsoft заверили, что пока не планируют выпускать продукт на рынок.

Игры

Евгений Царев

Microsoft