Home Машинное обучение Используйте машинное обучение, не написав ни единой строки кода, с помощью Amazon SageMaker Canvas. | DeepTech

Используйте машинное обучение, не написав ни единой строки кода, с помощью Amazon SageMaker Canvas. | DeepTech

0
Используйте машинное обучение, не написав ни единой строки кода, с помощью Amazon SageMaker Canvas.
 | DeepTech

В недавнем прошлом использование машинного обучения (МО) для прогнозирования, особенно для данных в форме текста и изображений, требовало обширных знаний в области машинного обучения для создания и настройки моделей глубокого обучения. Сегодня машинное обучение стало более доступным для любого пользователя, который хочет использовать модели машинного обучения для создания ценности для бизнеса. С помощью Amazon SageMaker Canvas вы можете создавать прогнозы для ряда различных типов данных, помимо табличных данных или данных временных рядов, не написав ни единой строки кода. Эти возможности включают предварительно обученные модели для типов данных изображений, текста и документов.

В этом посте мы обсудим, как вы можете использовать предварительно обученные модели для получения прогнозов для поддерживаемых типов данных, помимо табличных данных.

Текстовые данные

SageMaker Canvas предоставляет визуальную среду без написания кода для создания, обучения и развертывания моделей машинного обучения. Для задач обработки естественного языка (NLP) SageMaker Canvas легко интегрируется с Amazon Comprehend, что позволяет вам выполнять ключевые функции NLP, такие как определение языка, распознавание сущностей, анализ настроений, тематическое моделирование и многое другое. Интеграция устраняет необходимость в кодировании или обработке данных для использования надежных моделей НЛП Amazon Comprehend. Вы просто предоставляете свои текстовые данные и выбираете одну из четырех часто используемых возможностей: анализ настроений, определение языка, извлечение объектов и обнаружение личной информации. Для каждого сценария вы можете использовать пользовательский интерфейс для тестирования и пакетного прогнозирования для выбора данных, хранящихся в Amazon Simple Storage Service (Amazon S3).

Анализ текстовых данных в SageMaker Canvas

Анализ настроений

Благодаря анализу настроений SageMaker Canvas позволяет анализировать тональность входного текста. Он может определить, является ли общее настроение положительным, отрицательным, смешанным или нейтральным, как показано на следующем снимке экрана. Это полезно в таких ситуациях, как анализ обзоров продуктов. Например, текст «Мне нравится этот товар, он потрясающий!» будет классифицирован SageMaker Canvas как имеющий положительное настроение, тогда как фраза «Этот продукт ужасен, я сожалею о его покупке» будет помечена как отрицательное настроение.

Анализ настроений на холсте SageMaker

Извлечение сущностей

SageMaker Canvas может анализировать текст и автоматически обнаруживать упомянутые в нем объекты. Когда документ отправляется в SageMaker Canvas для анализа, он идентифицирует людей, организации, местоположения, даты, количества и другие объекты в тексте. Эта возможность извлечения объектов позволяет вам быстро получить представление о ключевых людях, местах и ​​деталях, обсуждаемых в документах. Список поддерживаемых объектов см. в разделе Объекты.

Извлечение объектов на холсте SageMaker

Распознавание языка

SageMaker Canvas также может определять доминирующий язык текста с помощью Amazon Comprehend. Он анализирует текст для определения основного языка и выдает оценки достоверности для обнаруженного доминирующего языка, но не указывает процентную разбивку для многоязычных документов. Для достижения наилучших результатов при работе с длинными документами на нескольких языках разделите текст на более мелкие части и агрегируйте результаты, чтобы оценить процентное соотношение языков. Лучше всего работает с текстом длиной не менее 20 символов.

Распознавание языка в SageMaker Canvas

Обнаружение личной информации

Вы также можете защитить конфиденциальные данные, используя обнаружение личной информации с помощью SageMaker Canvas. Он может анализировать текстовые документы для автоматического обнаружения объектов личной информации (PII), что позволяет вам находить конфиденциальные данные, такие как имена, адреса, даты рождения, номера телефонов, адреса электронной почты и многое другое. Он анализирует документы размером до 100 КБ и предоставляет оценку достоверности для каждого обнаруженного объекта, чтобы вы могли просматривать и выборочно редактировать наиболее конфиденциальную информацию. Список обнаруженных объектов см. в разделе «Обнаружение объектов PII».

Обнаружение личных данных на холсте SageMaker

Данные изображения

SageMaker Canvas предоставляет визуальный интерфейс без кода, который упрощает использование возможностей компьютерного зрения за счет интеграции с Amazon Rekognition для анализа изображений. Например, вы можете загрузить набор данных изображений, использовать Amazon Rekognition для обнаружения объектов и сцен, а также выполнить обнаружение текста для решения широкого спектра вариантов использования. Визуальный интерфейс и интеграция с Amazon Rekognition позволяют неразработчикам использовать передовые методы компьютерного зрения.

Анализ данных изображения в SageMaker Canvas

Обнаружение объектов на изображениях

SageMaker Canvas использует Amazon Rekognition для обнаружения меток (объектов) на изображении. Вы можете загрузить изображение из пользовательского интерфейса SageMaker Canvas или использовать Пакетное прогнозирование вкладка для выбора изображений, хранящихся в корзине S3. Как показано в следующем примере, он может извлекать на изображении такие объекты, как башня с часами, автобус, здания и т. д. Вы можете использовать интерфейс для поиска результатов прогнозов и их сортировки.

Обнаружение объектов в изображениях на холсте SageMaker

Обнаружение текста на изображениях

Извлечение текста из изображений — очень распространенный вариант использования. Теперь вы можете легко выполнить эту задачу в SageMaker Canvas без использования кода. Текст извлекается в виде отдельных позиций, как показано на следующем снимке экрана. Короткие фразы внутри изображения классифицируются вместе и идентифицируются как фраза.

Обнаружение текста в изображениях на холсте SageMaker

Вы можете выполнять пакетные прогнозы, загружая набор изображений, извлекая все изображения в одном пакетном задании и загружая результаты в виде файла CSV. Это решение полезно, если вы хотите извлечь и обнаружить текст на изображениях.

Данные документа

SageMaker Canvas предлагает множество готовых к использованию решений, которые удовлетворят ваши повседневные потребности в понимании документов. Эти решения основаны на Amazon Textract. Чтобы просмотреть все доступные параметры документов, выберите Готовые к использованию модели в панели навигации и отфильтруйте по Документыкак показано на следующем снимке экрана.

Анализ данных документа на холсте SageMaker

Анализ документов

Анализ документов анализирует документы и формы на предмет взаимосвязей между обнаруженным текстом. Операции возвращают четыре категории извлеченных документов: необработанный текст, формы, таблицы и подписи. Способность решения понимать структуру документа дает вам дополнительную гибкость в выборе типа данных, которые вы хотите извлечь из документов. На следующем снимке экрана показан пример того, как выглядит обнаружение таблиц.

Анализ документа на холсте SageMaker

Это решение способно понимать макеты сложных документов, что полезно, когда вам нужно извлечь из документов конкретную информацию.

Анализ документов, удостоверяющих личность

Это решение предназначено для анализа таких документов, как удостоверения личности, водительские права или другие подобные формы идентификации. Такая информация, как второе имя, округ и место рождения, а также индивидуальная оценка достоверности точности будут возвращены для каждого документа, удостоверяющего личность, как показано на следующем снимке экрана.

Анализ документов, удостоверяющих личность, на холсте SageMaker

Существует возможность пакетного прогнозирования, при которой вы можете массово загружать наборы идентификационных документов и обрабатывать их как пакетное задание. Это обеспечивает быстрый и простой способ преобразования деталей идентификационного документа в пары «ключ-значение», которые можно использовать для последующих процессов, таких как анализ данных.

Анализ расходов

Анализ расходов предназначен для анализа расходных документов, таких как счета-фактуры и квитанции. На следующем снимке экрана показан пример того, как выглядит извлеченная информация.

Анализ расходов на холсте SageMaker

Результаты возвращаются в виде полей сводки и полей позиций. Поля сводки представляют собой пары «ключ-значение», извлеченные из документа, и содержат такие ключи, как Общий итог, Срок оплатыи Налог. Поля отдельных позиций относятся к данным, структурированным в виде таблицы в документе. Это полезно для извлечения информации из документа, сохраняя при этом его макет.

Запросы документов

Запросы документов предназначены для того, чтобы вы могли задавать вопросы о своих документах. Это отличное решение, которое можно использовать, когда у вас есть многостраничные документы и вы хотите извлечь из них очень конкретные ответы. Ниже приведен пример типов вопросов, которые вы можете задать, и того, как выглядят извлеченные ответы.

Запросы документов на холсте SageMaker

Решение предоставляет простой интерфейс для взаимодействия с вашими документами. Это полезно, если вы хотите получить конкретные сведения в больших документах.

Заключение

SageMaker Canvas предоставляет среду без программирования, позволяющую легко использовать машинное обучение для различных типов данных, таких как текст, изображения и документы. Визуальный интерфейс и интеграция с сервисами AWS, такими как Amazon Comprehend, Amazon Rekognition и Amazon Textract, устраняют необходимость в кодировании и разработке данных. Вы можете анализировать текст на предмет настроений, сущностей, языков и личных данных. Для изображений обнаружение объектов и текста позволяет использовать компьютерное зрение. Наконец, анализ документа может извлекать текст, сохраняя его макет для последующих процессов. Готовые к использованию решения в SageMaker Canvas позволяют использовать передовые методы машинного обучения для получения аналитической информации как на основе структурированных, так и неструктурированных данных. Если вы заинтересованы в использовании инструментов без написания кода с готовыми к использованию моделями машинного обучения, попробуйте SageMaker Canvas сегодня. Дополнительную информацию см. в разделе Начало работы с использованием Amazon SageMaker Canvas.


Об авторах

Джулия Анг — архитектор решений из Сингапура. Она работала с клиентами в самых разных областях, от здравоохранения и государственного сектора до цифрового бизнеса, чтобы внедрять решения в соответствии с потребностями их бизнеса. Она также помогает клиентам в Юго-Восточной Азии и за ее пределами использовать AI и ML в их бизнесе. Вне работы ей нравится познавать мир, путешествуя и занимаясь творческими занятиями.

Локе Джун Кай — специалист по архитектуре решений для искусственного интеллекта и машинного обучения в Сингапуре. Он работает с клиентами в странах АСЕАН, разрабатывая масштабные решения машинного обучения в AWS. Джун Кай — сторонник инструментов машинного обучения с низким кодом и без кода. В свободное время он любит проводить время на природе.

LEAVE A REPLY

Please enter your comment!
Please enter your name here