Мы рады объявить о поддержке Amazon SageMaker Data Wrangler для точек доступа Amazon S3. Благодаря своей визуальной точке и интерфейсу clikc SageMaker Data Wrangler упрощает процесс подготовки данных и разработки функций, включая выбор данных, очистку, исследование и визуализацию, а точки доступа S3 упрощают доступ к данным, предоставляя уникальные имена хостов с определенными политиками доступа.
С сегодняшнего дня SageMaker Data Wrangler упрощает для пользователей подготовку данных из общих наборов данных, хранящихся в Amazon Simple Storage Service (Amazon S3), и позволяет организациям безопасно контролировать доступ к данным в своей организации. Благодаря точкам доступа S3 администраторы данных теперь могут создавать точки доступа для конкретных приложений и групп, чтобы упростить обмен данными, а не управлять сложными политиками сегментов с множеством различных правил разрешений.
В этом посте мы покажем вам, как импортировать данные из точки доступа S3 в SageMaker Data Wrangler и экспортировать в нее.
Обзор решения
Представьте, что вы, как администратор, должны управлять данными для нескольких групп специалистов по обработке и анализу данных, использующих собственные рабочие процессы подготовки данных в SageMaker Data Wrangler. Администраторы часто сталкиваются с тремя проблемами:
- Команды специалистов по обработке и анализу данных должны иметь доступ к своим наборам данных, не ставя под угрозу безопасность других.
- Командам специалистов по обработке и анализу данных требуется доступ к некоторым наборам данных с конфиденциальными данными, что еще больше усложняет управление разрешениями.
- Политика безопасности разрешает доступ к данным только через определенные конечные точки, чтобы предотвратить несанкционированный доступ и уменьшить раскрытие данных.
При использовании традиционных политик сегментов вам будет сложно настроить детализированный доступ, поскольку политики сегментов применяют одни и те же разрешения ко всем объектам в сегменте. Традиционные политики сегментов также не поддерживают защиту доступа на уровне конечной точки.
Точки доступа S3 решают эти проблемы, предоставляя детальный контроль доступа на детальном уровне, упрощая управление разрешениями для разных команд, не затрагивая другие части корзины. Вместо изменения одной политики корзины вы можете создать несколько точек доступа с отдельными политиками, адаптированными к конкретным случаям использования, что снижает риск неправильной настройки или непреднамеренного доступа к конфиденциальным данным. Наконец, вы можете применить политики конечных точек к точкам доступа, чтобы определить правила, которые контролируют, какие VPC или IP-адреса могут получать доступ к данным через конкретную точку доступа.
Мы продемонстрируем, как использовать точки доступа S3 с SageMaker Data Wrangler, выполнив следующие действия.
- Загрузить данные в корзину S3.
- Создайте точку доступа S3.
- Настройте свою роль AWS Identity and Access Management (IAM) с необходимыми политиками.
- Создайте поток SageMaker Data Wrangler.
- Экспортируйте данные из SageMaker Data Wrangler в точку доступа.
Для этого поста мы используем Набор данных банковского маркетинга для наших выборочных данных. Однако вы можете использовать любой другой набор данных, который вы предпочитаете.
Предпосылки
Для этого пошагового руководства у вас должны быть следующие предпосылки:
Загрузить данные в корзину S3
Загрузите свои данные в корзину S3. Инструкции см. в разделе Загрузка объектов. Для этого поста мы используем Набор данных банковского маркетинга.
Создайте точку доступа S3
Чтобы создать точку доступа S3, выполните следующие шаги. Дополнительные сведения см. в разделе Создание точек доступа.
- На консоли Amazon S3 выберите Точки доступа в панели навигации.
- Выбирать Создать точку доступа.
- Для Имя точки доступавведите имя для вашей точки доступа.
- Для Ведровыбирать Выберите сегмент в этом аккаунте.
- Для Ведро имяe введите имя созданного вами сегмента.
- Оставьте остальные настройки по умолчанию и выберите Создать точку доступа.
На странице сведений о точке доступа обратите внимание на имя ресурса Amazon (ARN) и псевдоним точки доступа. Вы будете использовать их позже при взаимодействии с точкой доступа в SageMaker Data Wrangler.
Настройте свою роль IAM
Если у вас есть готовый домен SageMaker Studio, выполните следующие действия, чтобы изменить роль выполнения:
- В консоли SageMaker выберите Домены в панели навигации.
- Выберите свой домен.
- На Настройки домена вкладка, выберите Редактировать.
По умолчанию роль IAM, которую вы используете для доступа к Data Wrangler, SageMakerExecutionRole
. Нам нужно добавить следующие две политики для использования точек доступа S3:
- Политика 1 – Эта политика IAM предоставляет SageMaker Data Wrangler доступ для выполнения
PutObject
,GetObject
иDeleteObject
:
- Политика 2 – Эта политика IAM предоставляет доступ к SageMaker Data Wrangler для получения точки доступа S3:
- Создайте эти две политики и прикрепите их к роли.
Использование точек доступа S3 в SageMaker Data Wrangler
Чтобы создать новый поток SageMaker Data Wrangler, выполните следующие действия:
- Запустите SageMaker Studio.
- На Файл меню, выбери Новый и Поток обработчика данных.
- Выберите Amazon S3 в качестве источника данных.
- Для источника S3 введите точку доступа S3, используя ARN или псевдоним, который вы записали ранее.
В этом посте мы используем ARN для импорта данных с помощью точки доступа S3. Однако ARN работает только для точек доступа S3 и доменов SageMaker Studio в одном и том же регионе.
В качестве альтернативы вы можете использовать псевдоним, как показано на следующем снимке экрана. В отличие от ARN, на псевдонимы можно ссылаться в разных регионах.
Экспорт данных из SageMaker Data Wrangler в точки доступа S3
После того, как мы завершим необходимые преобразования, мы можем экспортировать результаты в точку доступа S3. В нашем случае мы просто удалили столбец. Когда вы завершите любые преобразования, необходимые для вашего варианта использования, выполните следующие шаги:
- В потоке данных выберите знак плюс.
- Выберите Добавить пункт назначения и Amazon S3.
- Введите имя набора данных и местоположение S3, ссылаясь на ARN.
Теперь вы использовали точки доступа S3 для безопасного и эффективного импорта и экспорта данных без необходимости управлять сложными политиками корзин и перемещаться по нескольким структурам папок.
Очистить
Если вы создали новый домен SageMaker, чтобы продолжить, обязательно остановите все работающие приложения и удалите свой домен, чтобы не взимать плату. Кроме того, удалите все точки доступа S3 и удалите все корзины S3.
Заключение
В этом посте мы рассказали о наличии точек доступа S3 для SageMaker Data Wrangler и показали, как можно использовать эту функцию для упрощения управления данными в SageMaker Studio. Мы получили доступ к набору данных и сохранили полученные преобразования в псевдониме точки доступа S3 в учетных записях AWS. Мы надеемся, что вы воспользуетесь этой функцией, чтобы устранить все узкие места с доступом к данным для ваших пользователей SageMaker Studio, и рекомендуем вам попробовать ее!
Об авторах
Питер Чанг является архитектором решений, обслуживающим корпоративных клиентов в AWS. Он любит помогать клиентам использовать технологии для решения бизнес-задач по различным темам, таким как сокращение расходов и использование искусственного интеллекта. Он написал книгу об AWS FinOps и любит читать и создавать решения.
Нилам Кошия является архитектором корпоративных решений в AWS. В настоящее время ее внимание сосредоточено на том, чтобы помочь корпоративным клиентам в их переходе на облачные технологии для достижения стратегических бизнес-результатов. В свободное время она любит читать и проводить время на свежем воздухе.