Дипфейк - технология для творчества, лишающая уверенности в подлинности
Наивные вопросы
Дип… что?
Дипфейк - это видеоролик, в котором лицо одного человека подменяется другим при помощи алгоритмов машинного обучения. В этом слове соединены два понятия: глубокое обучение нейросетей (deep learning) и подделка (fake).
Глубокие (состоящие из многих слоёв) нейросети позволяют строить многоэтапные алгоритмы обработки информации. В результате развития этой технологии машины обрели способность к самообучению.
Как эта штука работает?
Есть несколько способов создать "обманку", но их объединяет общий принцип. Имя ему - GAN, генеративно-состязательная сеть (Generative adversarial network). Это алгоритм машинного обучения, построенный на соревновании двух нейросетей. Одна зовётся Генератор, она создаёт фальшивки. Другая, Дискриминатор, выступает в роли эксперта, который пытается отличить подделку от оригинала. Чем лучше Генератор обманывает Дискриминатора, тем правдоподобнее выглядит дипфейк.
Кто создал первый дипфейк?
Пращуром дипфейков стал в конце ХХ века цифровой клон актёра - понятие, пришедшее из киноиндустрии. Внешность и голос умершего или живого актёра воссоздавали с помощью донейросетевой технологии CGI (computer-generated imagery - изображения, сгенерированные компьютером), получая виртуальную модель человека.
Технология CGI помогла превратить актёра Билла Найи в настоящего морского дьявола
Считается, что эра дипфейков началась в конце 2017 года, когда пользователь с ником DeepFakes выложил на Reddit несколько видео с контентом 18+. На них актрисам из видео для взрослых были "приделаны" лица голливудских звёзд. Технология быстро разошлась в интернете и запустила волну по созданию похожего контента. В недавнем исследовании нидерландская компания по кибербезопасности Deeptrace выявила, что ролики 18+ составляют 96% от общего числа дипфейков: на момент исследования их было около 15 тысяч во всей Сети.
Как простому человеку сделать дипфейк?
Это не так уж сложно. В сделанных с помощью алгоритма Face2Face видеороликах пользователи примеряют на себя лица знаменитостей. "Обманка" создаётся в режиме реального времени и искажает мимику выбранной звезды вслед за мимикой пользователя. В соцсети Reddit в январе 2018 года появилась похожая технология - приложение FakeApp. Российская разработка DeepFaceLab и приложение Reface позволяют вставлять лицо в видео, менять движение губ и саму речь.
Дипфейки опасны?
Кажется, уже да. Первые подобные видеоролики были плохого качества, и подделки легко распознавались, но технология быстро эволюционирует.
По мере совершенствования дипфейков расширялось их применение в криминальной сфере. Теперь мошенники генерируют голос для звонков по телефону и создают компрометирующие видеоролики для шантажа. А в будущем? По прогнозам экспертов, дипфейки могут стать угрозой национальной безопасности. Повсеместный сбор биометрических данных создаёт дополнительные риски: фейковое изображение можно будет использовать вместе с фейковыми отпечатками пальцев или следами ДНК.
В марте 2019-го гендиректор британского филиала крупной энергетической компании принял звонок от босса из Германии. Тот со своим обычным немецким акцентом пробормотал срочное поручение: в течение часа отправить средства венгерскому поставщику. Британец положил трубку, перевёл на указанный счёт 220 тысяч евро и вскоре попал во все газеты как первый известный человек, облапошенный с помощью искусственного интеллекта. Ему звонила нейросеть, научившаяся с помощью GAN имитировать голос начальника-немца на основе аудиозаписей его выступлений. Страховой компании пришлось покрыть убытки, а остальным - задуматься о будущем.
Кто же нас спасёт?
Социальные сети - Twitter, Facebook, TikTok, Reddit - уже разрабатывают и применяют политику по защите пользователей от фальшивок. В некоторых странах вопрос с подделками решают на законодательном уровне. В Китае такие ролики маркируются, в некоторых штатах США, например в Калифорнии, запрещено распространять дипфейки с политиками перед выборами. Во Франции ввели санкции за монтаж речи или изображения человека без его согласия.
GAN: самоучитель для нейросетей
Как была создана и где применяется важнейшая из новых технологий машинного обучения
Однажды вечером докторант Монреальского университета Ян Гудфеллоу поспорил с друзьями за кружкой пива. Приятели поделились с ним идеей: они хотели создать нейросеть, которая будет придумывать лица никогда не существовавших людей. Получалось не очень. На сгенерированных изображениях не хватало то ухо, то носа, а чаще все детали были на месте, но портрет больше походил на шизоидную аппликацию из вырезанных частей лица со странными пропорциями, чем на нормальную физиономию. Разработчики планировали исправить болезненный творческий стиль нейросети, заставив её анализировать огромное число реальных фотографий. Но Гудфеллоу их высмеял. Для этого потребовались бы такие вычислительные мощности, которых у его приятелей просто не было. Так что у них ничего не получится, если только… Если только не создать вторую нейронную сеть, которая будет критиковать первую, а потом не стравить их, заставляя спорить, пока они не станут выдавать изображения нужного качества.
На этот раз снисходительно улыбнулись уже друзья Гудфеллоу: какая только чушь не приходит в голову к концу вечера в знаменитом монреальском кабаке "Три пивовара"! На том и разошлись.
Но вместо того чтобы лечь спать и наутро забыть своё пьяное озарение, Ян Гудфеллоу пришёл домой и уселся за компьютер.
Вскоре на свет появился алгоритм, который наделил машины даром воображения. Благодаря глубокому обучению они уже были способны видеть, слышать и распознавать. Дайте сети достаточное количество изображений, и она научится, скажем, отличать на снимках пешехода, который собирается перейти дорогу. Так появились автопилоты и Siri с Алисой. Но как насчёт творчества - создания новой картины или симфонии? До GAN искусственный интеллект не был способен к творчеству.
Новый алгоритм освободил человека от необходимости быть наставником для машин: благодаря соперничеству между двумя нейросетями система учится сама у себя. Это диалог антагонистов, работающих в одной команде, как если бы фальшивомонетчик всё более искусно подделывал купюры, а полицейский выискивал всё более тонкие способы опознать подделку. Обучение продолжается, пока алгоритм не начнёт путаться, где фальшивка, а где оригинал. Это означает, что машина научилась создавать нечто уникальное, но при этом неотличимое от реальности. Например, лицо никогда не существовавшего человека, которое вы не отличите от фото реальных людей. Разве не это называют творчеством?
Картинками и картинами, созданными искусственным интеллектом с помощью GAN, уже никого не удивить. Самая известная из них была продана на знаменитом лондонском аукционе Christie"s за 432,5 тысячи долларов. В названии "шедевра" - портрета некоего Эдмона Белами - угадывается привет отцу GAN: на французском bel ami означает "хороший друг". Примерно так переводится с английского фамилия Гудфеллоу.
Детище Гудфеллоу помогло заработать не только художникам, но и специалистам по компьютерным спецэффектам. Раньше, чтобы создать вымышленную реальность, им требовались миллионы долларов, 3D-сканирование актёров и большие компьютерные мощности. Но чтобы поменять местами лица каскадёра и актёра, довольно ноутбука.
С помощью GAN можно серьёзно улучшить качество изображения: нейросеть "додумывает" недостающие фрагменты, благодаря чему мы смотрим старые мультфильмы в HD-качестве, а медики могут во всех деталях разглядеть снимок, сделанный в плохом разрешении.
В 2017 году компания NVIDIA обучила нейронную сеть менять погоду и время суток на видео. Исследователи из Университета Карнеги - Меллона создали алгоритм, способный наложить мимику одного человека на лицо другого. А специалисты Вашингтонского университета научили нейросеть следить за тем, как человек на видео шевелит губами, сопоставлять его мимику со звуками, а затем превращать аудиозаписи в реалистичное видео. То есть голосового сообщения теперь достаточно, чтобы получить видео человека, который произносит эту речь. Разработчики из Facebook AI Research и вовсе обучили свою нейросеть распознавать движущегося человека на видео и произвольно менять его движения: управлять героем на видео можно так же, как персонажем в компьютерной игре. А можно ещё и фон вокруг поменять.
GAN умеет работать в том числе с голосом: нейросетям достаточно послушать несколько минут записи, чтобы максимально достоверно подделать речь человека. Так мы и попали в дивный мир deepfake, в котором ничему нельзя верить. Пока ещё нейросеть оставляет массу цифровых следов, и специальные фильтры могут отличить оригинал от подделки. Но с каждым днём алгоритмы совершенствуются.
И всё-таки главное, что делает GAN, - это не перерисовывание лиц, а создание более самостоятельных машин. Пока ещё ИИ-программистам приходится подбирать нейросетям материал для обучения - например, сообщать, какие изображения содержат пешеходов, пересекающих дорогу, а какие нет. Но очень скоро нужда в этом отпадёт. Компьютеры будут гораздо лучше справляться с необработанными данными и смогут сами понять, чему им надо научиться. Недаром Ян Лекун, глава лаборатории искусственного интеллекта в Facebook, назвал GAN самой крутой идеей глубокого обучения за последние 20 лет.
Способность воображать и размышлять над различными сценариями - часть того, что делает нас людьми. И в этом смысле GAN приближает искусственный интеллект к человеческому.
Фальшивые звёзды
Что заставили делать и говорить знаменитостей создатели дипфейков - и как это меняет мир
Николас Кейдж
Когда: 2018.
Автор: Пользователи YouTube.
Сюжет: Любители подделок поместили актёра в фильмы, в которых он никогда не снимался. Дон Корлеоне из "Крёстного отца", Нео из "Матрицы", Мария из "Звуков музыки"… Для Кейджа нет невозможного!
Последствия: Другие актёры тоже стали появляться в нетипичных для них ролях. Джим Керри попал в "Сияние" и "Джокера", Сильвестр Сталлоне отметился в "Терминаторе", а Арнольд Шварценеггер перевоплотился сразу во всех персонажей трилогии "Властелин колец". Список продолжает пополняться.
Нэнси Пелоси
Когда: 2019.
Автор: Портал Politics WatchDogs.
Сюжет: Пелоси, спикер палаты представителей конгресса США, произносит речь, но плохо выговаривает слова. Пользователи даже посчитали, что оппонентка президента Дональда Трампа (тогда между ними было личное противостояние) пьяна.
Последствия: Пелоси назвала видео "сексистским мусором". По её требованию YouTube удалил ролик, но в интернете остались его многочисленные копии.
Досталось и самим Трампу с Обамой: в 2017-м Барак назвал Дональда "засранцем" (deep shit), а "помогли" ему в этом режиссёр Джордан Пил и издание BuzzFeed.
Джефф Безос
Когда: 2019.
Автор: Билл Постерс (известный мастер дипфейков).
Сюжет: В тизере вымышленного телевизионного проекта глава Amazon пытается привлечь внимание к горящим лесам Амазонии. Мнимый Безос делает акцент на том, что "одолжил название лесов для своей компании". Именно это, говорит двойник миллиардера, позволило ему "стать самым богатым человеком на Земле".
Последствия: Ролик получил свою порцию славы, как и прошлые работы Постерса с фейковыми Морганом Фрименом или Дональдом Трампом. Вдохновлённый успехом, Постерс с соавторами покусился на великого и ужасного Марка Цукерберга: в дипфейк-видео основатель Facebook рассказывал о безграничной власти соцсети над новостями. В ответ на это руководство Facebook объявило войну подделкам. А вот Безос не обиделся: по его мнению, запреты на дипфейки - один из видов цензуры.
Сальвадор Дали
Когда: 2019 (к 115-му дню рождения).
Автор: Музей Дали во Флориде и компания Goodby Silverstein & Partners из Сан-Франциско.
Сюжет: Дали приветствует гостей на специальном экране в одном из залов. Модель создавали на основе архивных материалов и видео с современными актёрами, похожими на художника. Голос Дали подарил артист с характерным испанским акцентом.
Последствия: Виртуальный Дали сопровождал посетителей музея на выставке Dali Lives. Мэтр жестикулировал, рисовал, шутил, рассказывал истории, общался со всеми желающими и делал с ними селфи. Чтобы добиться такого результата, создателям понадобилось более 6000 кадров с изображением художника и 1000 часов машинного обучения.
Хоакин Оливер
Когда: 2020.
Автор: Некоммерческая организация Change the Ref.
Сюжет: На видео в Twitter погибший американский подросток призывает поддержать политиков, которые предлагают ввести контроль за оборотом оружия. "Выборы в ноябре - первые, на которых я мог бы проголосовать. Но я уже не смогу выбрать, в каком мире хочу жить. Поэтому вы должны проголосовать за меня", - говорит парень, убитый во время массовой стрельбы в феврале 2018 года в школе Марджори Стоунман Дуглас.
Последствия: За несколько дней ролик набрал миллионы просмотров, но это не помешало пользователем назвать видео "неэтичным" и "пугающим", обвинив его создателей в "цифровой некромантии".
Люк Скайуокер
Когда: 2020.
Автор: Lucasfilm.
Сюжет: В финальном эпизоде второго сезона сериала "Мандалорец" появляется молодой Люк, который забирает с собой Малыша Йоду.
Последствия: Известный в YouTube дипфейкер Shamook решил посоревноваться с Disney и создал более правдоподобную версию помолодевшего Люка. Студия оценила его талант и предложила сотрудничество. С помощью умельца в очередной части "Звёздных войн" вернули к жизни и нестареющую принцессу Лею.
Том Круз
Когда: 2021.
Авторы: Майлз Фишер (имитатор актёра) и Крис Юме (специалист по визуальным эффектам).
Сюжет: В серии роликов в TikTok Круз здоровается с пользователями, ударяет по мячу на поле для гольфа, рассказывает о встрече с Горбачёвым и показывает фокус с монеткой.
Последствия: Видео набрали 8 миллионов просмотров, а алгоритмы не опознали их как подделки. Впрочем, до этого Майлз успешно копировал Круза и без технологических ухищрений. Например, в 2019 году он записал шуточное обращение от лица актёра на выборах.