Знакомство с DALL·E 2 Art Generator: как он работает?

Робототехника

Знакомство с DALL·E 2 Art Generator: как он работает? | DeepTech

DEEPTECH

September 24, 2023

Введение

Искусственный интеллект DALL·E 2 — это языковая модель искусственного интеллекта, созданная OpenAI, которая способна генерировать высококачественные изображения из текстовых описаний. Это преемник оригинальной модели DALL·E, которая была обучена создавать изображения из текстового ввода, и была выпущена в сентябре 2021 года.

Искусство, генерируемое искусственным интеллектом, — это относительно новая область искусства, которая в настоящее время расширяет границы творчества и меняет способы создания искусства. Теперь художники могут использовать усовершенствованную модель машинного обучения для создания новых визуальных работ. Изображения, созданные при этом, называются изображениями, созданными ИИ. Этот процесс способен создавать уникальные произведения искусства, подобных которым мир еще не видел! Мы уже видим компьютерное искусство в художественных галереях и даже на обложках музыкальных альбомов.

Так что же такое искусственный интеллект? Что ж, искусство ИИ относится к искусству, созданному с использованием программного обеспечения для создания изображений искусственного интеллекта (ИИ). Искусственный интеллект — это область информатики, которая занимается созданием машин, имитирующих человеческий интеллект или даже моделирующих человеческий мозг с помощью набора алгоритмов. Существует множество различных генераторов изображений с использованием искусственного интеллекта, например, Google Deep Dream, WOMBO Dream, GauGAN2 и DALL·E 2. В этой статье мы подробнее рассмотрим DALL·E 2.

Читайте также: Иллюстратор на основе искусственного интеллекта рисует изображения с текстовыми подписями.

Что такое искусственный генератор искусственный интеллект DALL·E 2?

DALL·E 2 — это недавно новый генератор художественных изображений с искусственным интеллектом, который способен создавать реалистичные изображения, просто предлагая пользователям ввести описание изображения, которое они хотят создать. Например, если вы хотите, чтобы он нарисовал дерево, введите «дерево как цифровое искусство» или введите более описательную подсказку. Сначала DALL·E 2 был бесплатным для всех, но теперь пользователям каждый месяц предоставляется ограниченное количество кредитов, которые они могут использовать для создания произведений искусства. DALL·E 2 также имеет возможность редактировать уже существующие изображения, опять же, просто с помощью текстовых описаний, созданных пользователем. Мы называем эти изображения DALL-E.

DALL·E 2 обучен на огромном наборе данных пар текста и изображений, что позволяет ему генерировать изображения, соответствующие конкретным текстовым подсказкам. Например, если вы дадите ему подсказку типа «кресло в форме авокадо», он сгенерирует изображение кресла, напоминающего авокадо.

Что отличает DALL·E 2 от предыдущих генераторов искусств искусственного интеллекта, так это его способность генерировать сложные и подробные изображения с множеством объектов и текстур, а также способность манипулировать существующими изображениями в соответствии с новыми подсказками. Это открывает широкий спектр возможностей для приложений в таких областях, как дизайн, реклама и игры.

Это включает в себя возможность даже удалять и добавлять элементы. Более того, он может делать это, принимая во внимание определенные текстуры, отражения и даже тени! Он даже может создавать различные вариации уже созданного изображения. Возвращаясь к нашему примеру с деревом, вместо того, чтобы вводить «дерево как цифровое искусство», мы могли бы ввести «дерево как наскальная живопись» и получили бы изображение дерева, но в другом стиле. С помощью этой программы почти каждый может создавать произведения искусства, единственным ограничением является наше воображение. Далее давайте подробнее рассмотрим, как на самом деле работает DALL·E 2.

Как работает DALL·E 2?

DALL·E 2 кажется революционным, но как он работает на самом деле? Что ж, давайте посмотрим на генерацию изображений с более высокого уровня, поскольку именно это она и делает. Во-первых, текстовый кодер принимает текстовый ввод, поступающий от пользователя. Затем его обучают отображать текст в пространстве представления. Затем машинная модель, называемая предшествующей, сопоставляет текст с соответствующим изображением, которое фиксирует семантику подсказки, содержащейся в текстовой кодировке. Наконец, декодер изображения может генерировать изображение, которое является визуальным проявлением семантической информации, обработанной при кодировании текста. Однако это еще кое-что, но чтобы понять, нам нужно сначала взглянуть на другую модель OpenAI, известную как CLIP.

Источник: YouTube

Генерация условного изображения с помощью CLIP Latents

Вся модель DALL·E 2 основана на генеративной модели OpenAI под названием CLIP (предварительное обучение контрастному языку-изображению). CLIP обладает способностью изучать семантику естественного языка, поэтому давайте посмотрим, как CLIP обучается на высоком уровне. Сначала все системы изображений и их подписи проходят через кодеры, и все объекты отображаются в m-мерном пространстве. Затем вычисляется косинусное сходство пар изображения и текста. Наконец, цель состоит в том, чтобы максимизировать косинусное сходство между N правильными закодированными парами и минимизировать косинусное сходство между N² – N неправильно закодированных пар. CLIP важен для DALL·E 2, поскольку именно он фактически определяет, насколько семантически связан фрагмент естественного языка с визуальной концепцией, что имеет решающее значение для генерации текстовых изображений. Имейте в виду, что это только один из алгоритмов создания изображений, используемых DALL·E. Теперь, когда мы знаем, как DALL·E 2 генерирует изображения, давайте сравним его с исходным DALL·E 1 и выясним, почему он лучше.

Предварительное обучение контрастному языковому изображению (CLIP)

Читайте также: Знаменитые произведения искусства, созданные ИИ

Почему DALL·E 2 предпочтительнее DALL·E 1?

DALL·E 1 был создан OpenAI в 2021 году, а всего год спустя, в 2022 году, DALL·E 2 был вытеснен. Оба генерируют изображения на основе описаний на естественном языке, но что делает DALL·E 2 лучше? Что ж, сначала мы можем рассмотреть их различия, начиная с ясности между визуальными эффектами и текстами. DALL·E 1 смог создать искусство из простого текста, создав множество выходных данных и выбрав наиболее подходящие из них.

Это был медленный процесс. С другой стороны, DALL·E 2 способен находить связь между визуальными эффектами и описывающим их текстом, создавая тем самым более связные изображения. Он использует процесс, известный как диффузия, для постепенного создания узора, напоминающего картинку. Этот процесс намного быстрее, чем DALL·E 1, поскольку он способен создавать множество вариаций за секунды. Еще одна причина использовать DALL-E 2 вместо DALL·E 1 — качество изображений. DALL·E 1 мог отображать изображения только одним определенным способом, обычно с простым фоном. Обычно они были низкого качества. Однако DALL·E 2 способен создавать более фотореалистичные изображения, более крупные и детальные. Он также может создавать изображения с более высоким разрешением по сравнению с DALL·E 1. Наконец, DALL·E 2 имеет возможность создавать несколько вариантов одного и того же изображения и выводить их. Это функция, которой нет в DALL·E 1. Теперь, когда мы знаем, насколько удивительными могут быть результаты работы DALL·E, давайте посмотрим, как предотвратить их неправомерное использование в злонамеренных целях.

Предотвращение создания вредоносных произведений искусства с помощью искусственного интеллекта и сдерживание злоупотреблений

Самая большая проблема на данный момент с контентом, созданным ИИ, заключается в том, что его может использовать каждый, что может привести к потенциальному вреду. Хотя DALL·E 2 нравится художникам, работающим с искусственным интеллектом, традиционные художники им не слишком довольны. Он позволяет любому создавать жестокий контент, поскольку у него нет фильтра. Генераторы искусств искусственного интеллекта могут создавать изображения насилия, изображения для взрослых и даже изображения, защищенные авторским правом, благодаря стабильному распространению технологий. Как только у кого-то появится создатель контента, сгенерированный искусственным интеллектом, например DALL·E 2, и он начнет создавать контент, созданный с помощью искусственного интеллекта, не будет никаких технических ограничений относительно того, для чего его можно использовать. Поскольку технология все еще новая, до сих пор неясно, какими могут быть последствия использования машинно-генерируемого контента.

Хотя, в конечном счете, от людей зависит, будут ли они использовать это морально или нет. Легко представить, что DALL·E 2 и другие генераторы произведений искусства используются для создания фальшивой пропаганды, спама и другого откровенного контента с участием общественных деятелей. Хотя пока ничего подобного не произошло, но как нам предотвратить вред от подобных дипфейков? На данный момент самое выгодное, что компания может сделать против художественных поколений ИИ, — это фильтровать сам ИИ, чтобы он не создавал вредные формы искусства, и разрабатывать политику контента относительно того, что можно создавать, а что нет.

Еще одна вещь, которую они могут сделать, — это создать системы человеческого мониторинга, чтобы проверять, что создают пользователи. Однако есть одна вещь, которую генераторы искусств ИИ не отфильтровывают — это искусство, защищенное авторским правом. На данный момент он может имитировать стиль и эстетику других художников, что является нарушением авторских прав и этики. Если у художников возникнут проблемы со злоупотреблением арт-генераторами, компании вряд ли найдут решения, поскольку они просто переложат вину на пользователей продукта.

Читайте также: Переосмысление искусства с помощью генеративного искусственного интеллекта

Заключение

Несмотря на возможные злоупотребления, машинно-генерируемый контент является очень большим толчком для художников, стремящихся создавать изображения, созданные с помощью искусственного интеллекта. Он также может привлечь больше людей, интересующихся искусством, поскольку они смогут легко его создавать. DALL·E 2 также демонстрирует возможности моделей диффузии в глубоком обучении. Это дает людям много власти, но то, как они ее используют, зависит от них. Спасибо, что прочитали эту статью.