Эта статья представляет собой вырезку из моей будущей книги, на которую вы можете подписаться здесь: https://www.danrose.ai/book.
Синтетические данные в ИИ — это, пожалуй, тема, о которой я сейчас больше всего думаю, если честно. Он имеет огромный потенциал для улучшить конфиденциальность, снизить предвзятость и повысить точность модели одновременно в гигантский технологический скачок в ближайшие годы. Гартнер даже заявил, “К 2024 году 60% данных, используемых для разработки проектов ИИ и аналитики, будут генерироваться синтетическим путем.“. Это меняет правила игры, учитывая, что многие люди, работающие с ИИ сегодня, даже не начали внедрять эту технологию.
Синтетические данные — это данные, а не фактические наблюдения за миром. Это поддельные данные, созданные либо людьми, либо алгоритмами. Они создаются искусственно или синтетически, но цель та же, что и у реальных данных — представить мир, в котором должен функционировать ИИ. Идея о том, что данные для обучения моделей ИИ должны точно представлять мир, по-прежнему остается средством достижения цели. В конечном счете, цель создания ИИ — это модели, которые точно прогнозируют, чтобы обеспечить хороший пользовательский опыт.
Типы синтетических данных
В зависимости от типа данных, текста, изображений и табличных данных существуют разные подходы и варианты использования.
Синтетические тексты
Для языкового и текстового ИИ вы можете создавать синтетические тексты, похожие на те, которые вы найдете в реальном мире. Для человека это может даже показаться тарабарщиной, но если он выполняет работу по представлению мира при использовании для обучения данных, этого достаточно.
Я реализовал этот подход раньше в случае классификации текста. Я выбрал этот подход, потому что данные можно было хранить только в течение трех месяцев, что затрудняло отслеживание сезонных сигналов. Я взял реальные данные, которые я передал языковой модели, и точно настроил модель, чтобы она могла создавать данные, похожие на реальные данные. Затем мы могли бы генерировать неограниченное количество данных для каждой этикетки без личных данных для обучения моделей ИИ.
Синтетические изображения
Для изображений можно использовать модель преобразования текста в изображение, которая может создавать синтетические изображения просто по запросу пользователя с текстом. Самая известная версия — модель NVIDIA DALL-E 2, выдающая невероятно реалистичные изображения. Версию с открытым исходным кодом, доступную на HuggingFace, которая называется DALL-E Mini, можно бесплатно попробовать здесь: https://huggingface.co/spaces/dalle-mini/dalle-mini. Вы можете подсказать модели короткий текст, например «клубника в квадрате», и вы получите от модели девять попыток создать изображение клубники в квадрате.
Поскольку исходный код модели открыт, вы также можете загрузить ее и использовать в своих проектах.
Изображения, создаваемые DALL-E Mini, могут быть не фотореалистичными, но их достаточно для обучения моделей искусственного интеллекта.
Вы можете попробовать сами. Перейти к ДАЛЛ-Э Мини и запросите модель, чтобы сделать изображения бананов и яблок. Используйте такие предложения, как «Банан на столе» или «Банан на случайном фоне». Сделайте то же самое с яблоком, пока у вас не будет примерно 30 изображений каждого. Теперь вы можете загрузить эти изображения на Обучаемая машина сделать распознаватель бананов и яблок. Я обещаю, что это сработает. Если вас совсем не впечатляет то, что вы можете создать ИИ для распознавания объектов из чисто синтетических изображений, тогда я не знаю, что производит.
Вариантов использования здесь множество. Вы можете синтетически создавать объекты, которые вы ожидаете, но не видели в обучающих данных. Вы также можете переносить обычные объекты на случайный фон, чтобы убедиться, что вы покрываете неизвестные сценарии. Это также повысит качество моделей, поскольку изменение окружающей среды будет иметь меньшее значение.
Синтетические табличные данные
Табличные данные также можно генерировать синтетическим путем. Это популярно в здравоохранении, поскольку здравоохранение очень уязвимо для проблем с данными. Помимо бесконечного сочетания сценариев с различными заболеваниями и взаимодействием лекарств, существует также проблема конфиденциальности. Данные из истории диагностики и лечения одного пациента могут быть настолько уникальными, что могут идентифицировать отдельных лиц. Создавая синтетические версии фактических данных, данные можно расширить, чтобы лучше охватить редкие сценарии и анонимизировать данные. Это позволяет легко обмениваться данными между исследователями и медицинскими экспертами.
Модели мира
С синтетическими моделями мира мы также можем экспериментировать с решениями ИИ, прежде чем выпускать их, и учить их становиться лучше за небольшую плату. Беспилотные автомобили — идеальный вариант для этого. Самоуправляемые автомобили можно разрабатывать быстрее и безопаснее, создавая синтетическую модель мира, близкую к реальному миру, с физикой и случайными сценариями. Многие компании, производящие беспилотные автомобили, сегодня используют модели, построенные на движке Unity, изначально предназначенном для разработки компьютерных игр. Автомобили могут пытаться, разбиваться и улучшаться без риска для людей в виртуальном мире миллионы раз, прежде чем они будут выпущены.
Плюсы и минусы синтетических данных
Преимущества применения синтетических данных к вашим решениям многочисленны. Он может предоставить больше данных по более низкой цене, чтобы повысить точность моделей. Он может устранить систематическую ошибку, выравнивая данные, добавляя к редким характеристикам или меткам, которые были бы недостатком для некоторых групп. Это также может улучшить конфиденциальность людей, чьи личные данные могут быть частью данных обучения. Это также может позволить нам протестировать известные и неизвестные сценарии.
Но все ли хорошо? Нет. Синтетические данные — это не панацея. Это сопряжено с риском добавления предвзятости или отдаления данных от мира, который они должны представлять. Проблема заключается в том, что трудно определить причину систематической ошибки, поскольку синтетические данные часто используются там, где реальных данных недостаточно и, по определению, их сложно проверить на практике. Синтетические данные — многообещающее решение многих проблем, но используйте их с осторожностью. Поскольку очень немногие имеют опыт работы с синтетическими данными в ИИ, мы не знаем о многих ожидающих нас проблемах.
Чтобы получить дополнительные советы, подпишитесь на книгу здесь: https://www.danrose.ai/book.