Дипфейк: что это, как распознать, история и примеры использования технологии
Нейросети, генерирующие изображения по текстовым запросам, стали одним из самых громких трендов последних лет — но далеко не таким противоречивым, как технология deepfake. Возможность заменить внешность человека на видео или создать ролик, где снимется погибший актер, вызывает горячие дискуссии со всех сторон вопроса: недавно отечественные рекламщики из Agenda Media Group даже сняли веб-сериал, где снялись цифровые двойники Джейсона Стейтема, Марго Робби и Киану Ривза. Разбираемся, как работают deepfake и можно ли распознать фейк невооруженным взглядом.
Что такое deepfake
Если не слишком вдаваться в технические подробности, англоязычным термином deepfake называют различный медиа-контент (чаще всего видео), где внешность и/или голос одного человека искусственно заменены внешностью и/или голосом другого. Например, в нашумевшем короткометражном фильме In Event of Moon Disaster, где высадка Нила Армстронга на Луну закончилась катастрофой, президент США Ричард Никсон зачитывает срочное обращение к народу. Он выглядит и звучит точь-в-точь, как реальный президент — но его сыграл другой актер, чьи голос и внешность заменили.
Создание термина присваивают одноименному пользователю интернет-форума Reddit, который в 2017 году выложил на платформе ролики порнографического характера, где лица актрис были заменены на внешность знаменитостей. Впрочем, эксперименты в этой области начались гораздо раньше, еще в конце 1990-х. Разработчики уже тогда занимались созданием программ, способных подгонять искусственную мимику под аудиодорожки — чтобы не было расхождений. Разница лишь в том, что раньше подобные технологии были доступны лишь узкому кругу специалистов, тогда как сейчас для тех же целей применяются нейросети: их исходный код нередко выкладывается в Сеть бесплатно для всех желающих.
Как работают deepfake
Специальные алгоритмы, работающие на базе нейросетей, синтезируют видео и звук при помощи машинного обучения. Они изучают сотни тысяч образцов голоса и внешности, чтобы собрать необходимый объем информации: мимику, черты лица, привычки, естественные позы, тембр речи и так далее. После этого обученный алгоритм может обработать видео, распознать нужные элементы и заменить их. Например, вырезать лицо Маколея Калкина из «Один дома» и вставить вместо него внешность Сильвестра Сталлоне.
Популярность фейковых роликов со знаменитостями не случайна. Нейросети обучаются на примере интервью, фильмов, записях живых выступлений, подкастах и прочем контенте, который очень легко можно найти в Интернете, причем в большом количестве. Впрочем, на основе таких данных едва ли получится создать по-настоящему качественный фейк. Серьезные компании, специализирующиеся на визуальных эффектах, подходят к вопросу иначе: они приглашают актеров, записывают видеоматериал в тщательно контролируемых условиях, просят героев прочитать заранее подготовленный текст — чтобы нейросеть получила хорошие образцы. Собственно, на данный момент именно киноиндустрия и выступает ключевой областью применения deepfake. Благодаря этой технологии студии могут заставить пожилых актеров выглядеть значительно моложе своих лет, как это было в фильме «Ирландец» Мартина Скорсезе, или вообще «воскресить» мертвого человека на экране. Например, Питера Кушинга, чей цифровой двойник сыграл в «Изгой-один: Звездные войны. Истории». Синтез речи также часто используется для создания голосовых помощников, автоответчиков и других инструментов сферы обслуживания.
Как распознать deepfake
Чем совершеннее технологии, тем сложнее отличить убедительный deepfake от реальности. Однако в ближайшем будущем они вряд ли избавятся от всех недостатков: если знать, на что обращать внимание, то распознать обработанное видео не слишком сложно. Так, сотрудник медиалаборатории Массачусетского технологического института Мэтт Гро рекомендует присматриваться к следующим нюансам.
Лицо. Моргает ли человек на видео слишком часто или слишком редко? Помещаются ли их брови на их лице? Нет ли волос в неправильном месте? Не выглядит ли их кожа слишком гладкой или морщинистой?Голос. Подходит ли голос внешности? Нормально ли звучит тембр и дикция?Освещение. Отбрасывают ли очки человека корректные блики? Как смотрится свет, падающий на лицо?