В последнее время фейковые новости стали серьезной угрозой для человеческого общества. Ложная информация может быстро распространяться через социальные сети и влиять на принятие решений. Более того, даже современным технологиям искусственного интеллекта сложно распознавать поддельные данные. Одна из самых последних разработок в области манипулирования данными хорошо известна как «Дипфейк», который относится к обмен лицами на изображениях или видео. До сих пор методы дипфейков в основном применялись путем обмена лицами знаменитостей в забавных видео или заставляли политиков произносить веселые глупые речи. Тем не менее, многие отрасли могут извлечь выгоду из таких приложений для дипфейков, как киноиндустрия с помощью расширенного редактирования видео.
Как работают DeepFake?
Давайте подробнее рассмотрим, как работают Deepfakes. Дипфейки обычно основаны на генеративно-состязательных сетях (GAN), где две конкурирующие нейронные сети обучаются совместно. GAN добились значительных успехов во многих задачах компьютерного зрения. Они были введены в 2014 и современные архитектуры способны создание реалистичных изображений, которые даже человек не может распознать, настоящие они или нет. Ниже вы можете увидеть несколько изображений успешной модели GAN под названием StyleGAN.
Эти люди не настоящие — их произвели СтильГАН генератор, который позволяет управлять различными аспектами изображения.
Что такое дипфейки?
На основе Вики, Дипфейки синтетические среды в котором человек на существующем изображении или видео заменяется чужим подобием. Акт внедрения поддельного человека в изображение не нов. Тем не менее, последние методы Deepfakes обычно используют последние достижения мощных моделей GAN, направленные на манипулирование лицом.
В целом манипуляции с лицом обычно проводятся с помощью дипфейков и могут быть разделены на следующие категории:
-
Синтез лица
-
Обмен лицами
-
Черты лица и выражение
Синтез лица
В этой категории цель состоит в том, чтобы создать несуществующие реалистичные лица с помощью GAN. Самый популярный подход — StyleGAN. Вкратце, новая архитектура генератора учится разделять высокоуровневые атрибуты (например, поза и личность при обучении на человеческих лицах) без наблюдения и стохастических вариаций в сгенерированных изображениях (например, веснушки, волосы), а также обеспечивает интуитивно понятный, зависящий от масштаба контроль синтеза. Генератор StyleGAN показан на рисунке 2.
Входные данные отображаются через несколько полносвязных слоев в промежуточное представление. ж который затем подается на каждый сверточный слой через адаптивную нормализацию экземпляра (AdaIN), где каждая карта объектов нормализуется отдельно. Гауссовский шум добавляется после каждой свертки. Преимущество добавления шума непосредственно в карты объектов каждого слоя заключается в том, что глобальные аспекты, такие как идентичность и поза, не затрагиваются.
Архитектура генератора StyleGAN позволяет управлять синтезом изображения через специфичные для масштаба модификации стилей. Сеть отображения и аффинные преобразования — это способ получения образцов для каждого стиля из изученного распределения, а сеть синтеза — это способ создания изображения на основе набора стилей. Эффекты каждого стиля локализованы в сети, то есть можно ожидать, что изменение определенного подмножества стилей повлияет только на определенные аспекты изображения. Причина такой локализации основана на операции AdaIN, которая сначала нормализует каждый канал к нулевому среднему и единичной дисперсии, и только затем применяет масштабы и смещения на основе стиля. Новая статистика по каналам, как это продиктовано стилем, изменяет относительную важность признаков для последующей операции свертки, но они не зависят от исходной статистики из-за нормализации. Таким образом, каждый стиль контролирует только одинсвертки перед переопределением следующей операцией AdaIN.
Архитектура генератора StyleGAN
Для обнаружения поддельных синтетических изображений были разработаны различные подходы. Например, в работе Об обнаружении цифровых манипуляций с лицом, авторы использовали слои внимания поверх карт объектов, чтобы выделить обработанные области лица. Их сеть выводит бинарное решение о том, является ли изображение реальным или поддельным.
Метод обнаружения манипулирования лицом на основе внимания.
Архитектура обнаружения манипулирования лицом может использовать любую магистральную сеть, и уровень внимания может быть вставлен в сеть. Он принимает на вход многомерный признак F, оценивает карту внимания M_att, используя либо методы, основанные на модели внешнего вида манипуляции (MAM), либо методы, основанные на регрессии, и по каналам умножает его на многомерные признаки, которые возвращаются обратно в позвоночник. Метод MAM предполагает, что любая обработанная карта может быть представлена как линейная комбинация набора прототипов карт, в то время как метод регрессии оценивает карту внимания с помощью сверточной операции. В дополнение к потере бинарной классификации, контролируемой или слабо контролируемой потере, L_map может применяться для оценки карты внимания, в зависимости от того, доступна ли карта манипулирования наземной истиной M_gt.
Обмен лицами
Замена лица — самая популярная категория манипуляций с лицом в настоящее время. Цель здесь состоит в том, чтобы определить, является ли изображение или видео человека поддельным после замены его лица. Самая популярная база данных с фейковыми и реальными видео — это FaceForensics++. Поддельные видео в этом наборе данных были сделаны с использованием компьютерной графики (FaceSwap) и методы глубокого обучения (DeepFake FaceSwap). FaceSwap Приложение написано на Python и использует выравнивание лица, оптимизацию Гаусса-Ньютона и смешивание изображений, чтобы заменить лицо человека, видимого камерой, лицом человека на предоставленном изображении. (для получения дополнительной информации проверьте официальное репо)
DeepFake FaceSwap Подход основан на двух автоэнкодерах с общим кодировщиком, которые обучены восстанавливать тренировочные изображения исходного и целевого лица соответственно.
Лицо в целевой последовательности заменяется лицом, которое наблюдалось в исходном видео или коллекции изображений. Детектор лиц используется для обрезки и выравнивания изображений. Для создания поддельного изображения к целевому лицу применяются обученные кодировщик и декодер исходного лица. Затем вывод автоэнкодера смешивается с остальной частью изображения с помощью Пуассоновское редактирование изображений.
Пример смены лица, взятый из здесь
Обнаружение перепутанных лиц в настоящее время постоянно развивается, поскольку это очень важно для защиты прав человека. AWS, Facebook, Microsoft, Партнерство с Руководящим комитетом AI по обеспечению честности СМИи ученые объединились, чтобы построить Проблема обнаружения дипфейков (DFDC) в Kaggle с 1 000 000 $ всего призы. Цель конкурса — побудить исследователей по всему миру создавать инновационные новые технологии, которые могут помочь обнаруживать дипфейки и манипуляции с медиа. Большинство систем обнаружения подмены лиц используют сверточные нейронные сети (CNN), пытаясь изучить отличительные признаки или распознать «отпечатки пальцев», оставшиеся от изображений, синтезированных с помощью GAN. Были проведены масштабные эксперименты с Рёсслер и др. все с пятью сетевыми архитектурами.
-
система на основе CNN, обученная с помощью созданных вручную функций
-
система на основе CNN со слоями свертки, которые пытаются подавить высокоуровневое содержимое изображения.
-
система на основе CNN с глобальным уровнем объединения, который вычисляет четыре статистических показателя (среднее значение, дисперсия, максимум и минимум)
-
Си-Эн-Эн МезоНачало-4 система обнаружения
-
система на основе CNN XceptionNet предварительно обучены с использованием набора данных ImageNet и снова обучены задаче смены лица. XceptionNet — это архитектура CNN, вдохновленная Зарождение и использует отделимые по глубине свертки
XceptionNet добились наилучших результатов в обнаружении подмены лица среди этих пяти архитектур при обнаружении поддельных изображений. Его превосходство в производительности в значительной степени основано на глубинные извилины.
Архитектура XceptionNet взята из оригинала работа
Черты лица и выражение
Атрибуты лица и манипулирование выражением лица заключаются в изменении атрибутов лица, таких как цвет волос или кожи, возраст, пол и выражение лица, делая его счастливым, грустным или злым. Наиболее популярным примером является FaceApp недавно запущенное мобильное приложение. Большинство этих подходов используют GAN (что еще?) для преобразования изображения в изображение. Одним из наиболее эффективных методов является СтарГАН который использует единую модель, обученную для нескольких доменов атрибутов, вместо обучения нескольких генераторов для каждого домена. Предоставляется подробный анализ здесь.
Пример манипулирования атрибутами лица, заимствованный из здесь
Общая архитектура StarGAN, взятая из оригинала работа
СтарГАН состоит из дискриминатора Д и генератор г. Дискриминатор пытается предсказать, является ли входное изображение поддельным или реальным, и классифицирует реальное изображение по соответствующему домену. Генератор принимает в качестве входных данных как изображение, так и метку целевого домена и генерирует поддельное изображение. Метка целевого домена пространственно реплицируется и объединяется с входным изображением. Затем генератор пытается восстановить исходное изображение из поддельного изображения с использованием исходной метки домена. Наконец, генератор G пытается генерировать изображения, неотличимые от реальных изображений и классифицируемые дискриминатором как целевой домен.
Наконец, вы можете посмотреть это видео, чтобы максимально понять:
Заключение
В этой статье, мотивированной недавними разработками в области методов генерации и обнаружения дипфейков, мы обсудили основные репрезентативные подходы к манипулированию лицом. Для получения дополнительной информации о наборах данных Deepfakes, а также о методах генерации и обнаружения, вы можете проверить мой гитхаб репозиторий. Мы попытались собрать список ресурсов, посвященных дипфейкам.
Рекомендации
-
Каррас, Т., Лейн, С., и Айла, Т. (2019). Архитектура генератора на основе стилей для генеративно-состязательных сетей. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4401-4410).
-
Толосана, Р., Вера-Родригес, Р., Фьеррес, Дж., Моралес, А., и Ортега-Гарсия, Дж. (2020). Дипфейки и не только: Обзор манипуляций с лицами и обнаружения подделок. Препринт arXiv arXiv: 2001.00179.
-
Шолле, Ф. (2017). Исключение: Глубокое обучение с разделяемыми по глубине извилинами. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 1251-1258).
-
Чой, Ю., Чой, М., Ким, М., Ха, Дж. В., Ким, С., и Чу, Дж. (2018). Stargan: унифицированные генеративно-состязательные сети для многодоменной трансляции изображений в изображения.. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 8789-8797).
-
Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Вард-Фарли Д., Озаир С., … и Бенжио Ю. (2014). Генеративные состязательные сети. В Достижения в области нейронных систем обработки информации (стр. 2672-2680).
-
Афчар Д., Нозик В., Ямагиши Дж. и Эчизен И. (2018 г., декабрь). Mesonet: компактная сеть обнаружения подделок видео лиц. В Международный семинар IEEE по криминалистике и безопасности информации (WIFS), 2018 г. (стр. 1-7). IEEE.
-
Росслер, А., Коццолино, Д., Вердолива, Л., Рисс, К., Тиес, Дж., и Нисснер, М. (2019). Фейсфорензика++: Обучение обнаружению манипулируемых изображений лица. В Материалы Международной конференции IEEE по компьютерному зрению (стр. 1-11).
* Раскрытие информации: Обратите внимание, что некоторые из приведенных выше ссылок могут быть партнерскими ссылками, и без дополнительной оплаты для вас мы будем получать комиссию, если вы решите совершить покупку после перехода по ссылке.