Home Искусственный интеллект Deepfakes: синтез лиц с помощью GAN и автоэнкодеров | DeepTech

Deepfakes: синтез лиц с помощью GAN и автоэнкодеров | DeepTech

0
Deepfakes: синтез лиц с помощью GAN и автоэнкодеров
 | DeepTech

В последнее время фейковые новости стали серьезной угрозой для человеческого общества. Ложная информация может быстро распространяться через социальные сети и влиять на принятие решений. Более того, даже современным технологиям искусственного интеллекта сложно распознавать поддельные данные. Одна из самых последних разработок в области манипулирования данными хорошо известна как «Дипфейк», который относится к обмен лицами на изображениях или видео. До сих пор методы дипфейков в основном применялись путем обмена лицами знаменитостей в забавных видео или заставляли политиков произносить веселые глупые речи. Тем не менее, многие отрасли могут извлечь выгоду из таких приложений для дипфейков, как киноиндустрия с помощью расширенного редактирования видео.

Как работают DeepFake?

Давайте подробнее рассмотрим, как работают Deepfakes. Дипфейки обычно основаны на генеративно-состязательных сетях (GAN), где две конкурирующие нейронные сети обучаются совместно. GAN добились значительных успехов во многих задачах компьютерного зрения. Они были введены в 2014 и современные архитектуры способны создание реалистичных изображений, которые даже человек не может распознать, настоящие они или нет. Ниже вы можете увидеть несколько изображений успешной модели GAN под названием StyleGAN.


стиль-ган-результаты генерации изображений


стиль-ган-результаты генерации изображений


Эти люди не настоящие — их произвели СтильГАН генератор, который позволяет управлять различными аспектами изображения.

Что такое дипфейки?

На основе Вики, Дипфейки синтетические среды в котором человек на существующем изображении или видео заменяется чужим подобием. Акт внедрения поддельного человека в изображение не нов. Тем не менее, последние методы Deepfakes обычно используют последние достижения мощных моделей GAN, направленные на манипулирование лицом.

В целом манипуляции с лицом обычно проводятся с помощью дипфейков и могут быть разделены на следующие категории:

  1. Синтез лица

  2. Обмен лицами

  3. Черты лица и выражение

Синтез лица

В этой категории цель состоит в том, чтобы создать несуществующие реалистичные лица с помощью GAN. Самый популярный подход — StyleGAN. Вкратце, новая архитектура генератора учится разделять высокоуровневые атрибуты (например, поза и личность при обучении на человеческих лицах) без наблюдения и стохастических вариаций в сгенерированных изображениях (например, веснушки, волосы), а также обеспечивает интуитивно понятный, зависящий от масштаба контроль синтеза. Генератор StyleGAN показан на рисунке 2.

Входные данные отображаются через несколько полносвязных слоев в промежуточное представление. ж который затем подается на каждый сверточный слой через адаптивную нормализацию экземпляра (AdaIN), где каждая карта объектов нормализуется отдельно. Гауссовский шум добавляется после каждой свертки. Преимущество добавления шума непосредственно в карты объектов каждого слоя заключается в том, что глобальные аспекты, такие как идентичность и поза, не затрагиваются.

Архитектура генератора StyleGAN позволяет управлять синтезом изображения через специфичные для масштаба модификации стилей. Сеть отображения и аффинные преобразования — это способ получения образцов для каждого стиля из изученного распределения, а сеть синтеза — это способ создания изображения на основе набора стилей. Эффекты каждого стиля локализованы в сети, то есть можно ожидать, что изменение определенного подмножества стилей повлияет только на определенные аспекты изображения. Причина такой локализации основана на операции AdaIN, которая сначала нормализует каждый канал к нулевому среднему и единичной дисперсии, и только затем применяет масштабы и смещения на основе стиля. Новая статистика по каналам, как это продиктовано стилем, изменяет относительную важность признаков для последующей операции свертки, но они не зависят от исходной статистики из-за нормализации. Таким образом, каждый стиль контролирует только одинсвертки перед переопределением следующей операцией AdaIN.


стиль-ган-генератор-архитектура


Архитектура генератора StyleGAN

Для обнаружения поддельных синтетических изображений были разработаны различные подходы. Например, в работе Об обнаружении цифровых манипуляций с лицом, авторы использовали слои внимания поверх карт объектов, чтобы выделить обработанные области лица. Их сеть выводит бинарное решение о том, является ли изображение реальным или поддельным.


метод обнаружения манипулирования лицом на основе внимания


Метод обнаружения манипулирования лицом на основе внимания.

Архитектура обнаружения манипулирования лицом может использовать любую магистральную сеть, и уровень внимания может быть вставлен в сеть. Он принимает на вход многомерный признак F, оценивает карту внимания M_att, используя либо методы, основанные на модели внешнего вида манипуляции (MAM), либо методы, основанные на регрессии, и по каналам умножает его на многомерные признаки, которые возвращаются обратно в позвоночник. Метод MAM предполагает, что любая обработанная карта может быть представлена ​​как линейная комбинация набора прототипов карт, в то время как метод регрессии оценивает карту внимания с помощью сверточной операции. В дополнение к потере бинарной классификации, контролируемой или слабо контролируемой потере, L_map может применяться для оценки карты внимания, в зависимости от того, доступна ли карта манипулирования наземной истиной M_gt.

Обмен лицами

Замена лица — самая популярная категория манипуляций с лицом в настоящее время. Цель здесь состоит в том, чтобы определить, является ли изображение или видео человека поддельным после замены его лица. Самая популярная база данных с фейковыми и реальными видео — это FaceForensics++. Поддельные видео в этом наборе данных были сделаны с использованием компьютерной графики (FaceSwap) и методы глубокого обучения (DeepFake FaceSwap). FaceSwap Приложение написано на Python и использует выравнивание лица, оптимизацию Гаусса-Ньютона и смешивание изображений, чтобы заменить лицо человека, видимого камерой, лицом человека на предоставленном изображении. (для получения дополнительной информации проверьте официальное репо)

DeepFake FaceSwap Подход основан на двух автоэнкодерах с общим кодировщиком, которые обучены восстанавливать тренировочные изображения исходного и целевого лица соответственно.

Лицо в целевой последовательности заменяется лицом, которое наблюдалось в исходном видео или коллекции изображений. Детектор лиц используется для обрезки и выравнивания изображений. Для создания поддельного изображения к целевому лицу применяются обученные кодировщик и декодер исходного лица. Затем вывод автоэнкодера смешивается с остальной частью изображения с помощью Пуассоновское редактирование изображений.


пример-обмен лицом


Пример смены лица, взятый из здесь

Обнаружение перепутанных лиц в настоящее время постоянно развивается, поскольку это очень важно для защиты прав человека. AWS, Facebook, Microsoft, Партнерство с Руководящим комитетом AI по обеспечению честности СМИи ученые объединились, чтобы построить Проблема обнаружения дипфейков (DFDC) в Kaggle с 1 000 000 $ всего призы. Цель конкурса — побудить исследователей по всему миру создавать инновационные новые технологии, которые могут помочь обнаруживать дипфейки и манипуляции с медиа. Большинство систем обнаружения подмены лиц используют сверточные нейронные сети (CNN), пытаясь изучить отличительные признаки или распознать «отпечатки пальцев», оставшиеся от изображений, синтезированных с помощью GAN. Были проведены масштабные эксперименты с Рёсслер и др. все с пятью сетевыми архитектурами.

  • система на основе CNN, обученная с помощью созданных вручную функций

  • система на основе CNN со слоями свертки, которые пытаются подавить высокоуровневое содержимое изображения.

  • система на основе CNN с глобальным уровнем объединения, который вычисляет четыре статистических показателя (среднее значение, дисперсия, максимум и минимум)

  • Си-Эн-Эн МезоНачало-4 система обнаружения

  • система на основе CNN XceptionNet предварительно обучены с использованием набора данных ImageNet и снова обучены задаче смены лица. XceptionNet — это архитектура CNN, вдохновленная Зарождение и использует отделимые по глубине свертки

XceptionNet добились наилучших результатов в обнаружении подмены лица среди этих пяти архитектур при обнаружении поддельных изображений. Его превосходство в производительности в значительной степени основано на глубинные извилины.


XceptionNet-архитектура


Архитектура XceptionNet взята из оригинала работа

Черты лица и выражение

Атрибуты лица и манипулирование выражением лица заключаются в изменении атрибутов лица, таких как цвет волос или кожи, возраст, пол и выражение лица, делая его счастливым, грустным или злым. Наиболее популярным примером является FaceApp недавно запущенное мобильное приложение. Большинство этих подходов используют GAN (что еще?) для преобразования изображения в изображение. Одним из наиболее эффективных методов является СтарГАН который использует единую модель, обученную для нескольких доменов атрибутов, вместо обучения нескольких генераторов для каждого домена. Предоставляется подробный анализ здесь.


лицевые-атрибуты-манипулирование-стар-ган


Пример манипулирования атрибутами лица, заимствованный из здесь


старган-архитектура


Общая архитектура StarGAN, взятая из оригинала работа

СтарГАН состоит из дискриминатора Д и генератор г. Дискриминатор пытается предсказать, является ли входное изображение поддельным или реальным, и классифицирует реальное изображение по соответствующему домену. Генератор принимает в качестве входных данных как изображение, так и метку целевого домена и генерирует поддельное изображение. Метка целевого домена пространственно реплицируется и объединяется с входным изображением. Затем генератор пытается восстановить исходное изображение из поддельного изображения с использованием исходной метки домена. Наконец, генератор G пытается генерировать изображения, неотличимые от реальных изображений и классифицируемые дискриминатором как целевой домен.

Наконец, вы можете посмотреть это видео, чтобы максимально понять:

Заключение

В этой статье, мотивированной недавними разработками в области методов генерации и обнаружения дипфейков, мы обсудили основные репрезентативные подходы к манипулированию лицом. Для получения дополнительной информации о наборах данных Deepfakes, а также о методах генерации и обнаружения, вы можете проверить мой гитхаб репозиторий. Мы попытались собрать список ресурсов, посвященных дипфейкам.

Рекомендации

  1. Каррас, Т., Лейн, С., и Айла, Т. (2019). Архитектура генератора на основе стилей для генеративно-состязательных сетей. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4401-4410).

  2. Толосана, Р., Вера-Родригес, Р., Фьеррес, Дж., Моралес, А., и Ортега-Гарсия, Дж. (2020). Дипфейки и не только: Обзор манипуляций с лицами и обнаружения подделок. Препринт arXiv arXiv: 2001.00179.

  3. Шолле, Ф. (2017). Исключение: Глубокое обучение с разделяемыми по глубине извилинами. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 1251-1258).

  4. Чой, Ю., Чой, М., Ким, М., Ха, Дж. В., Ким, С., и Чу, Дж. (2018). Stargan: унифицированные генеративно-состязательные сети для многодоменной трансляции изображений в изображения.. В Материалы конференции IEEE по компьютерному зрению и распознаванию образов (стр. 8789-8797).

  5. Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Вард-Фарли Д., Озаир С., … и Бенжио Ю. (2014). Генеративные состязательные сети. В Достижения в области нейронных систем обработки информации (стр. 2672-2680).

  6. Афчар Д., Нозик В., Ямагиши Дж. и Эчизен И. (2018 г., декабрь). Mesonet: компактная сеть обнаружения подделок видео лиц. В Международный семинар IEEE по криминалистике и безопасности информации (WIFS), 2018 г. (стр. 1-7). IEEE.

  7. Росслер, А., Коццолино, Д., Вердолива, Л., Рисс, К., Тиес, Дж., и Нисснер, М. (2019). Фейсфорензика++: Обучение обнаружению манипулируемых изображений лица. В Материалы Международной конференции IEEE по компьютерному зрению (стр. 1-11).

Книга «Глубокое обучение в производстве» 📖

Узнайте, как создавать, обучать, развертывать, масштабировать и поддерживать модели глубокого обучения. Изучите инфраструктуру машинного обучения и MLOps на практических примерах.

Узнать больше

* Раскрытие информации: Обратите внимание, что некоторые из приведенных выше ссылок могут быть партнерскими ссылками, и без дополнительной оплаты для вас мы будем получать комиссию, если вы решите совершить покупку после перехода по ссылке.

LEAVE A REPLY

Please enter your comment!
Please enter your name here