Данные — это основа для получения максимальной выгоды от технологий искусственного интеллекта и быстрого решения бизнес-задач. Однако чтобы раскрыть потенциал генеративных технологий искусственного интеллекта, есть ключевое условие: ваши данные должны быть соответствующим образом подготовлены. В этой статье мы опишем, как использовать генеративный искусственный интеллект для обновления и масштабирования конвейера данных с помощью Amazon SageMaker Canvas для подготовки данных.
Как правило, работа с конвейером данных требует специальных навыков для подготовки и организации данных, которые аналитики безопасности смогут использовать для извлечения выгоды, что может занять время, увеличить риски и увеличить время окупаемости. С помощью SageMaker Canvas аналитики безопасности могут легко и безопасно получить доступ к ведущим базовым моделям, чтобы быстрее подготовить свои данные и устранить риски кибербезопасности.
Подготовка данных включает в себя тщательное форматирование и продуманную контекстуализацию, отходя от проблемы клиента. Теперь, благодаря чату SageMaker Canvas для подготовки данных, аналитики со знаниями предметной области могут быстро подготовить, систематизировать и извлечь пользу из данных, используя чат.
Обзор решения
Генеративный искусственный интеллект совершает революцию в сфере безопасности, предоставляя персонализированный интерфейс на естественном языке, улучшая выявление и устранение рисков, а также повышая продуктивность бизнеса. В этом случае мы используем SageMaker Canvas, Amazon SageMaker Data Wrangler, Amazon Security Lake и Amazon Simple Storage Service (Amazon S3). Amazon Security Lake позволяет агрегировать и нормализовать данные безопасности для анализа, чтобы лучше понять безопасность в вашей организации. Amazon S3 позволяет хранить и извлекать любой объем данных в любое время и в любом месте. Он предлагает лучшие в отрасли масштабируемость, доступность данных, безопасность и производительность.
SageMaker Canvas теперь поддерживает комплексные возможности подготовки данных на базе SageMaker Data Wrangler. Благодаря этой интеграции SageMaker Canvas предоставляет комплексное рабочее пространство без программирования для подготовки данных, построения и использования машинного обучения (ML) и базовых моделей Amazon Bedrock, чтобы ускорить переход от данных к бизнес-аналитике. Теперь вы можете обнаруживать и агрегировать данные из более чем 50 источников данных, а также исследовать и готовить данные, используя более 300 встроенных методов анализа и преобразований в визуальном интерфейсе SageMaker Canvas. Вы также увидите более высокую производительность преобразований и анализа, а также преимущества интерфейса на естественном языке для исследования и преобразования данных для машинного обучения.
В этом посте мы демонстрируем три ключевых преобразования; фильтрация, переименование столбцов и извлечение текста из столбца в наборе данных результатов анализа безопасности. Мы также демонстрируем использование функции чата для подготовки данных в SageMaker Canvas для анализа данных и визуализации результатов.
Предварительные условия
Прежде чем начать, вам понадобится учетная запись AWS. Вам также необходимо настроить домен Amazon SageMaker Studio. Инструкции по настройке SageMaker Canvas см. в разделе Создание прогнозов машинного обучения без кода.
Доступ к интерфейсу чата SageMaker Canvas.
Выполните следующие шаги, чтобы начать использовать функцию чата SageMaker Canvas:
- На консоли SageMaker Canvas выберите Обработчик данных.
- Под Наборы данныхвыберите Amazon S3 в качестве источника и укажите набор данных по безопасности из Amazon Security Lake.
- Выберите свой поток данных и выберите Чат для подготовки данныхкоторый будет отображать интерфейс чата с подсказками.
Фильтровать данные
В этом сообщении мы сначала хотим отфильтровать критические и серьезные предупреждения, поэтому вводим в окно чата инструкции, чтобы удалить результаты, которые не являются критическими или высокой степенью серьезности. Canvas удаляет строки, отображает предварительный просмотр преобразованных данных и предоставляет возможность использовать код. Мы можем добавить его в список шагов в Шаги панель.
Переименование столбцов
Далее мы хотим переименовать два столбца, поэтому вводим в поле чата следующую подсказку, чтобы переименовать описание и заголовок столбцы в Нахождение и Исправление. SageMaker Canvas создает предварительный просмотр, и если вас устраивают результаты, вы можете добавить преобразованные данные к шагам потока данных.
Извлечь текст
Для определения региона-источника находки вы можете ввести в чат инструкции по Извлеките текст региона из столбца UID на основе шаблона. arn:aws:security:securityhub:region:*
и создайте новый столбец под названием «Регион».), чтобы извлечь текст региона из столбца UID на основе шаблона. Затем SageMaker Canvas генерирует код для создания нового столбца региона. Предварительный просмотр данных показывает, что результаты получены из одного региона: us-west-2
. Вы можете добавить это преобразование в поток данных для последующего анализа.
Анализируйте данные
Наконец, мы хотим проанализировать данные, чтобы определить, существует ли корреляция между временем суток и количеством важных результатов. Вы можете ввести в чат запрос на обобщение важных выводов по времени суток, и SageMaker Canvas предоставит информацию, полезную для вашего расследования и анализа.
Визуализация результатов
Затем мы визуализируем результаты по степени серьезности с течением времени, чтобы включить их в отчет руководства. Вы можете попросить SageMaker Canvas создать гистограмму степени серьезности в зависимости от времени суток. За считанные секунды SageMaker Canvas создал диаграмму, сгруппированную по серьезности. Вы можете добавить эту визуализацию к анализу в потоке данных и загрузить ее для своего отчета. Данные показывают, что результаты происходят из одного региона и происходят в определенное время. Это дает нам уверенность в том, на чем сосредоточить наше исследование безопасности, чтобы определить основные причины и корректирующие действия.
Очистить
Чтобы избежать непредвиденных расходов, выполните следующие действия для очистки ресурсов:
- Очистите корзину S3, которую вы использовали в качестве источника.
- Выйдите из SageMaker Canvas.
Заключение
В этом посте мы показали, как использовать SageMaker Canvas в качестве комплексного рабочего пространства без программирования для подготовки данных для создания и использования базовых моделей Amazon Bedrock, чтобы ускорить сбор бизнес-информации из данных.
Обратите внимание, что этот подход не ограничивается выводами о безопасности; вы можете применить это к любому варианту использования генеративного ИИ, в основе которого лежит подготовка данных.
Будущее принадлежит компаниям, которые смогут эффективно использовать возможности генеративного искусственного интеллекта и больших языковых моделей. Но для этого мы должны сначала разработать надежную стратегию обработки данных и понять искусство подготовки данных. Используя генеративный искусственный интеллект для разумного структурирования наших данных и работая в обратном направлении от клиента, мы можем быстрее решать бизнес-задачи. Благодаря чату SageMaker Canvas для подготовки данных аналитикам легко приступить к работе и сразу же получить выгоду от ИИ.
Об авторах
Судиш Сасидхаран — старший архитектор решений в AWS в отделе энергетики. Судиш любит экспериментировать с новыми технологиями и создавать инновационные решения, которые решают сложные бизнес-задачи. Когда он не разрабатывает решения и не возится с новейшими технологиями, его можно найти на теннисном корте, работающим над ударом слева.
Джон Клачински является главным менеджером по решениям для клиентов в команде независимых поставщиков программного обеспечения (ISV) AWS. В этой роли он программно помогает клиентам независимых поставщиков программного обеспечения внедрять технологии и сервисы AWS для более быстрого достижения своих бизнес-целей. До прихода в AWS Джон возглавлял группы по обработке данных в крупных компаниях, производящих потребительские товары, помогая им использовать аналитические данные для улучшения своей деятельности и принятия решений.