Home Машинное обучение Ускорьте подготовку данных для машинного обучения в Amazon SageMaker Canvas | DeepTech

Ускорьте подготовку данных для машинного обучения в Amazon SageMaker Canvas | DeepTech

0
Ускорьте подготовку данных для машинного обучения в Amazon SageMaker Canvas
 | DeepTech

Подготовка данных — важнейший шаг в любом рабочем процессе машинного обучения (ML), однако он часто включает в себя утомительные и трудоемкие задачи. Amazon SageMaker Canvas теперь поддерживает комплексные возможности подготовки данных на базе Amazon SageMaker Data Wrangler. Благодаря этой интеграции SageMaker Canvas предоставляет клиентам комплексное рабочее пространство без программирования для подготовки данных, построения и использования моделей машинного обучения и базовых моделей, чтобы ускорить переход от данных к бизнес-аналитике. Теперь вы можете легко находить и агрегировать данные из более чем 50 источников данных, а также исследовать и готовить данные с помощью более 300 встроенных методов анализа и преобразований в визуальном интерфейсе SageMaker Canvas. Вы также увидите более высокую производительность преобразований и анализа, а также интерфейс на естественном языке для исследования и преобразования данных для машинного обучения.

В этом посте мы покажем вам процесс подготовки данных для комплексного построения модели в SageMaker Canvas.

Обзор решения

В нашем случае мы берем на себя роль специалиста по данным в компании, предоставляющей финансовые услуги. Мы используем два выборочных набора данных для построения модели машинного обучения, которая прогнозирует, будет ли кредит полностью погашен заемщиком, что имеет решающее значение для управления кредитным риском. Среда SageMaker Canvas без программирования позволяет нам быстро подготовить данные, разработать функции, обучить модель машинного обучения и развернуть модель в сквозном рабочем процессе без необходимости кодирования.

Предварительные условия

Чтобы следовать этому пошаговому руководству, убедитесь, что вы выполнили предварительные условия, как описано в разделе

  1. Запустите холст Amazon SageMaker. Если вы уже являетесь пользователем SageMaker Canvas, обязательно выйдите из системы и войдите снова, чтобы иметь возможность использовать эту новую функцию.
  2. Чтобы импортировать данные из Snowflake, выполните действия, описанные в разделе «Настройка OAuth для Snowflake».

Подготовьте интерактивные данные

После завершения настройки мы можем создать поток данных для интерактивной подготовки данных. Поток данных обеспечивает встроенные преобразования и визуализацию в реальном времени для обработки данных. Выполните следующие шаги:

  1. Создайте новый поток данных, используя один из следующих методов:
    1. Выбирать Обработчик данных, Потоки данныхтогда выбирай Создавать.
    2. Выберите набор данных SageMaker Canvas и выберите Создайте поток данных.
  2. Выбирать Импортировать данные и выберите Табличный из раскрывающегося списка.
  3. Вы можете импортировать данные напрямую через более чем 50 коннекторов данных, таких как Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, Snowflake и Salesforce. В этом пошаговом руководстве мы рассмотрим импорт ваших данных непосредственно из Snowflake.

Альтернативно вы можете загрузить тот же набор данных со своего локального компьютера. Вы можете скачать набор данных кредиты-часть-1.csv и кредиты-часть-2.csv.

  1. На странице «Импорт данных» выберите «Снежинка» из списка и выберите Добавить соединение.

  2. Введите имя для подключения, выберите OAuth вариант из раскрывающегося списка метода аутентификации. Введите идентификатор своей учетной записи okta и выберите «Добавить соединение».
  3. Вы будете перенаправлены на экран входа в систему Okta для ввода учетных данных Okta для аутентификации. При успешной аутентификации вы будете перенаправлены на страницу потока данных.
  4. Найдите набор данных о кредитах в базе данных Snowflake.

Выберите два набора данных о кредитах, перетащив их из левой части экрана в правую. Два набора данных соединятся, и появится символ соединения с красным восклицательным знаком. Нажмите на него, затем выберите для обоих наборов данных идентификатор ключ. Оставьте тип соединения как Внутренний. Это должно выглядеть так:

  1. Выбирать Сохранить и закрыть.
  2. Выбирать Создать набор данных. Дайте имя набору данных.
  3. Перейдите к потоку данных, и вы увидите следующее.
  4. Чтобы быстро изучить данные о кредите, выберите Получите ценную информацию о данных и выберите loan_status целевой столбец и Классификация тип проблемы.

Сгенерированный Отчет о качестве данных и аналитике предоставляет ключевую статистику, визуализацию и анализ важности функций.

  1. Просмотрите предупреждения о проблемах с качеством данных и несбалансированных классах, чтобы понять и улучшить набор данных.

Для набора данных в этом случае использования следует ожидать предупреждения с высоким приоритетом «Очень низкая оценка быстрой модели» и очень низкой эффективности модели для классов меньшинств (списанных и текущих), что указывает на необходимость очистки и балансировки данных. Обратитесь к документации Canvas, чтобы узнать больше об отчете по анализу данных.


Благодаря более чем 300 встроенным преобразованиям на базе SageMaker Data Wrangler SageMaker Canvas позволяет вам быстро обрабатывать данные о кредитах. Вы можете нажать на Добавить шаги просмотрите или найдите нужные преобразования. Для этого набора данных используйте Отсутствует падение и Обработка выбросов для очистки данных, а затем применить Одно горячее кодирование, и Векторизовать текст для создания функций для ML.

Чат для подготовки данных — это новая возможность естественного языка, которая обеспечивает интуитивно понятный анализ данных путем описания запросов на простом английском языке. Например, вы можете получить статистику и провести корреляционный анализ данных по кредитам, используя натуральные фразы. SageMaker Canvas понимает и выполняет действия посредством диалогового взаимодействия, выводя подготовку данных на новый уровень.


Мы можем использовать Чат для подготовки данных и встроенное преобразование для балансировки данных о кредите.

  1. Сначала введите следующие инструкции: replace “charged off” and “current” in loan_status with “default”

Чат для подготовки данных генерирует код для объединения двух классов меньшинства в один default сорт.

  1. Выбирайте встроенный СМОТЕ функция преобразования для генерации синтетических данных для класса по умолчанию.

Теперь у вас есть сбалансированный целевой столбец.

  1. После очистки и обработки данных о кредите заново создайте Отчет о качестве данных и аналитике чтобы просмотреть улучшения.

Предупреждение о высоком приоритете исчезло, что указывает на улучшение качества данных. При необходимости вы можете добавить дополнительные преобразования, чтобы повысить качество данных для обучения модели.

Масштабируйте и автоматизируйте обработку данных

Чтобы автоматизировать подготовку данных, вы можете запустить или запланировать весь рабочий процесс как распределенное задание обработки Spark для обработки всего набора данных или любых свежих наборов данных в нужном масштабе.

  1. В поток данных добавьте целевой узел Amazon S3.
  2. Запустите задание обработки SageMaker, выбрав Создать работу.
  3. Настройте задание обработки и выберите Создаватьчто позволяет потоку обрабатывать сотни ГБ данных без выборки.

Потоки данных могут быть включены в сквозные конвейеры MLOps для автоматизации жизненного цикла машинного обучения. Потоки данных могут передаваться в блокноты SageMaker Studio в качестве этапа обработки данных в конвейере SageMaker или для развертывания конвейера вывода SageMaker. Это позволяет автоматизировать процесс от подготовки данных до обучения и размещения SageMaker.

Создайте и разверните модель в SageMaker Canvas.

После подготовки данных мы можем легко экспортировать окончательный набор данных в SageMaker Canvas, чтобы построить, обучить и развернуть модель прогнозирования платежей по кредиту.

  1. Выбирать Создать модель в последнем узле потока данных или на панели узлов.

При этом набор данных будет экспортирован и запустится рабочий процесс создания управляемой модели.

  1. Назовите экспортированный набор данных и выберите Экспорт.
  2. Выбирать Создать модель из уведомления.
  3. Назовите модель, выберите Прогнозный анализи выберите Создавать.

Это перенаправит вас на страницу построения модели.

  1. Продолжайте создавать модели SageMaker Canvas, выбрав целевой столбец и тип модели, а затем выберите Быстрая сборка или Стандартная сборка.

Дополнительные сведения об опыте построения модели см. в разделе Построение модели.

После завершения обучения вы можете использовать модель для прогнозирования новых данных или их развертывания. Дополнительную информацию о развертывании модели из SageMaker Canvas см. в разделе Развертывание моделей машинного обучения, созданных в Amazon SageMaker Canvas, на конечных точках Amazon SageMaker в режиме реального времени.

Заключение

В этом посте мы продемонстрировали комплексные возможности SageMaker Canvas, взяв на себя роль специалиста по финансовым данным, готовящего данные для прогнозирования выплат по кредиту, с помощью SageMaker Data Wrangler. Интерактивная подготовка данных позволила быстро очистить, преобразовать и проанализировать данные о кредитах для разработки информативных функций. Устранив сложности кодирования, SageMaker Canvas позволил нам быстро выполнить итерации для создания высококачественного набора обучающих данных. Этот ускоренный рабочий процесс ведет непосредственно к созданию, обучению и развертыванию эффективной модели машинного обучения для повышения эффективности бизнеса. Благодаря комплексной подготовке данных и унифицированному опыту от данных до аналитики, SageMaker Canvas дает вам возможность улучшить результаты машинного обучения. Дополнительную информацию о том, как ускорить переход от данных к бизнес-аналитике, см. День погружения в SageMaker Canvas и руководство пользователя AWS.


Об авторах

Доктор Чанша Ма — специалист по AI/ML в AWS. Она технолог с докторской степенью в области компьютерных наук, степенью магистра в области педагогической психологии и многолетним опытом работы в области науки о данных и независимого консультирования в области искусственного интеллекта и машинного обучения. Она увлечена исследованием методологических подходов к машинному и человеческому интеллекту. Вне работы она любит пешие походы, готовку, охоту за едой и проводить время с друзьями и семьей.

Аджай Говиндарам — старший архитектор решений в AWS. Он работает со стратегическими клиентами, которые используют AI/ML для решения сложных бизнес-задач. Его опыт заключается в обеспечении технического руководства, а также помощи в проектировании скромных и крупномасштабных развертываний приложений AI/ML. Его знания варьируются от архитектуры приложений до больших данных, аналитики и машинного обучения. Ему нравится слушать музыку во время отдыха, отдыха на свежем воздухе и проводить время со своими близкими.

Хуонг Нгуен — старший менеджер по продукту в AWS. Она возглавляет подготовку данных машинного обучения для SageMaker Canvas и SageMaker Data Wrangler и имеет 15-летний опыт создания продуктов, ориентированных на клиента и управляемых данными.

LEAVE A REPLY

Please enter your comment!
Please enter your name here