Используйте машинное обучение без написания кода, чтобы получать ценную информацию из обзоров продуктов с помощью моделей анализа настроений Amazon SageMaker Canvas и анализа текста.

Машинное обучение

Используйте машинное обучение без написания кода, чтобы получать ценную информацию из обзоров продуктов с помощью моделей анализа настроений Amazon SageMaker Canvas и анализа текста. | DeepTech

DEEPTECH

October 10, 2023

Используйте машинное обучение без написания кода, чтобы получать ценную информацию из обзоров продуктов с помощью моделей анализа настроений Amazon SageMaker Canvas и анализа текста.
| DeepTech

В соответствии с Гартнер85% покупателей программного обеспечения доверяют онлайн-обзорам так же, как личным рекомендациям. Клиенты предоставляют отзывы и отзывы о продуктах, которые они приобрели, по многим каналам, включая веб-сайты отзывов, веб-сайты поставщиков, звонки по продажам, социальные сети и многие другие. Проблема с растущим объемом отзывов клиентов по нескольким каналам заключается в том, что компаниям может быть сложно обрабатывать данные и получать значимую информацию с использованием традиционных методов. Машинное обучение (МО) позволяет анализировать большие объемы обзоров продуктов и выявлять закономерности, настроения и обсуждаемые темы. Благодаря этой информации компании могут лучше понять предпочтения клиентов, болевые точки и уровни удовлетворенности. Они также могут использовать эту информацию для улучшения продуктов и услуг, выявления тенденций и принятия стратегических действий, способствующих росту бизнеса. Однако внедрение МО может стать проблемой для компаний, которым не хватает ресурсов, таких как специалисты по МО, специалисты по обработке данных или разработчики искусственного интеллекта (ИИ). Благодаря новым функциям Amazon SageMaker Canvas бизнес-аналитики теперь могут использовать машинное обучение для получения ценной информации из обзоров продуктов.

SageMaker Canvas разработан с учетом функциональных потребностей бизнес-аналитиков, позволяющих использовать AWS без кода ML для специального анализа табличных данных. SageMaker Canvas — это визуальный сервис «укажи и щелкни», который позволяет бизнес-аналитикам генерировать точные прогнозы ML, не написав ни единой строки кода и не требуя опыта ML. Вы можете использовать модели для интерактивного прогнозирования и пакетной оценки объемных наборов данных. SageMaker Canvas предлагает полностью управляемые готовые к использованию модели искусственного интеллекта и решения для пользовательских моделей. В распространенных случаях использования машинного обучения вы можете использовать готовую к использованию модель искусственного интеллекта для создания прогнозов на основе ваших данных без какого-либо обучения модели. Для случаев использования машинного обучения, специфичных для вашей бизнес-сферы, вы можете обучить модель машинного обучения на собственных данных для индивидуального прогнозирования.

В этом посте мы покажем, как использовать готовую к использованию модель анализа настроений и пользовательскую модель анализа текста для получения информации из обзоров продуктов. В этом варианте использования у нас есть набор синтезированных обзоров продуктов, которые мы хотим проанализировать на предмет настроений и классифицировать обзоры по типам продуктов, чтобы упростить выявление закономерностей и тенденций, которые могут помочь заинтересованным сторонам бизнеса принимать более обоснованные решения. Сначала мы опишем шаги по определению тональности отзывов с помощью готовой модели анализа тональности. Затем мы покажем вам процесс обучения модели анализа текста для классификации отзывов по типам продуктов. Далее мы объясним, как проверить производительность обученной модели. Наконец, мы объясним, как использовать обученную модель для прогнозирования.

Анализ тональности — это готовая к использованию модель обработки естественного языка (NLP), которая анализирует текст на предмет тональности. Анализ настроений можно проводить для однострочных или пакетных прогнозов. Прогнозируемые настроения для каждой строки текста могут быть положительными, отрицательными, смешанными или нейтральными.

Анализ текста позволяет классифицировать текст на две или более категории с помощью пользовательских моделей. В этом посте мы хотим классифицировать обзоры продуктов по типам продуктов. Чтобы обучить пользовательскую модель анализа текста, вы просто предоставляете набор данных, состоящий из текста и связанных категорий, в файле CSV. Для набора данных требуется минимум две категории и 125 строк текста на каждую категорию. После обучения модели вы можете просмотреть ее производительность и при необходимости переобучить модель, прежде чем использовать ее для прогнозов.

Предварительные условия

Выполните следующие предварительные условия:

Иметь учетную запись AWS.
Настройте холст SageMaker.
Загрузите примеры наборов данных обзоров продуктов:
- sample_product_reviews.csv – Содержит 2000 синтезированных обзоров продуктов и используется для анализа настроений и прогнозов анализа текста.
- sample_product_reviews_training.csv – Содержит 600 синтезированных обзоров продуктов и три категории продуктов и предназначен для обучения модели анализа текста.

Анализ настроений

Сначала вы используете анализ настроений, чтобы определить настроения в обзорах продуктов, выполнив следующие шаги.

На консоли SageMaker нажмите Холст в области навигации, затем нажмите Открытый холст чтобы открыть приложение SageMaker Canvas.
Нажмите Готовые к использованию модели в области навигации, затем нажмите Анализ настроений.
Нажмите Пакетное прогнозированиезатем нажмите Создать набор данных.
Обеспечить Имя набора данных и нажмите Создавать.
Нажмите Выберите файлы на своем компьютере импортировать sample_product_reviews.csv набор данных.
Нажмите Создать набор данных и просмотрите данные. Первый столбец содержит отзывы и используется для анализа настроений. Второй столбец содержит идентификатор отзыва и используется только для справки.
Нажмите Создать набор данных для завершения процесса загрузки данных.
в Выберите набор данных для прогнозов посмотреть, выбрать sample_product_reviews.csv а затем нажмите Генерируйте прогнозы.
После завершения пакетного прогнозирования нажмите кнопку Вид чтобы просмотреть прогнозы.

Этапы анализа настроений

В столбцах «Настроения» и «Уверенность» представлены оценки настроений и уверенности соответственно. Показатель уверенности — это статистическое значение от 0 до 100 %, которое показывает вероятность того, что настроение правильно спрогнозировано.

Нажмите Скачать CSV-файл чтобы загрузить результаты на свой компьютер.

Анализ текста

В этом разделе мы рассмотрим шаги по выполнению анализа текста с помощью пользовательской модели: импорт данных, обучение модели и последующее составление прогнозов.

Импортируйте данные

Сначала импортируйте набор обучающих данных. Выполните следующие шаги:

На Готовые к использованию модели страница, нажмите Создайте собственную модель
Для Название моделивведите имя (например, Product Reviews Analysis). Нажмите анализ текста, затем нажмите Создавать.
На Выбирать вкладка, нажмите Создать набор данных импортировать sample_product_reviews_training.csv набор данных.
Обеспечить Имя набора данных и нажмите Создавать.
Нажмите Создать набор данных и просмотрите данные. Набор обучающих данных содержит третий столбец, описывающий категорию продуктов, целевой столбец состоит из трех продуктов: книги, видео и музыка.
Нажмите Создать набор данных для завершения процесса загрузки данных.
На Выберите набор данных страница, выберите sample_product_reviews_training.csv и нажмите Выберите набор данных.

Этапы классификации

Обучение модели

Далее вы настраиваете модель, чтобы начать процесс обучения.

На Строить вкладка, на Целевой столбец раскрывающееся меню, нажмите product_category в качестве цели обучения.
Нажмите product_review в качестве источника.
Нажмите Быстрая сборка чтобы начать обучение модели.

Дополнительные сведения о различиях между быстрой сборкой и стандартной сборкой см. в разделе Создание пользовательской модели.

После завершения обучения модели вы можете просмотреть ее производительность, прежде чем использовать ее для прогнозирования.

На Анализировать вкладке, будет отображаться оценка достоверности модели. Показатель уверенности показывает, насколько модель уверена в том, что ее прогнозы верны. На Обзор вкладке просмотрите эффективность для каждой категории.
Нажмите Подсчет очков просмотреть данные о точности модели.
Нажмите Расширенные метрики просмотреть матрицу путаницы и оценку F1.

Делать предсказания

Чтобы сделать прогноз с помощью пользовательской модели, выполните следующие шаги:

На Предсказывать вкладка, нажмите Пакетное прогнозированиезатем нажмите Руководство.
Щелкните тот же набор данных, sample_product_reviews.csvкоторый вы использовали ранее для анализа настроений, затем нажмите Генерируйте прогнозы.
После завершения пакетного прогнозирования нажмите кнопку Вид чтобы просмотреть прогнозы.

Для прогнозирования пользовательской модели SageMaker Canvas требуется некоторое время для развертывания модели для первоначального использования. SageMaker Canvas автоматически отменяет инициализацию модели, если она простаивает в течение 15 минут, чтобы сэкономить средства.

Prediction (Категория) и Confidence В столбцах представлены прогнозируемые категории продуктов и показатели достоверности соответственно.

Выделите завершенное задание, выберите три точки и нажмите Скачать чтобы загрузить результаты на свой компьютер.

Очистить

Нажмите Выйти в панели навигации, чтобы выйти из приложения SageMaker Canvas, чтобы остановить потребление часов сеанса Canvas и освободить все ресурсы.

Заключение

В этом посте мы продемонстрировали, как можно использовать Amazon SageMaker Canvas для получения ценной информации из обзоров продуктов без опыта машинного обучения. Сначала вы использовали готовую модель анализа настроений, чтобы определить настроения в обзорах продуктов. Затем вы использовали анализ текста для обучения пользовательской модели с помощью процесса быстрой сборки. Наконец, вы использовали обученную модель для классификации обзоров продуктов по категориям продуктов. И все это без написания единой строчки кода. Мы рекомендуем повторить процесс анализа текста со стандартным процессом сборки, чтобы сравнить результаты модели и достоверность прогноза.

Об авторах

Гэвин Сатур — главный архитектор решений в Amazon Web Services. Он работает с корпоративными клиентами над созданием стратегических, хорошо продуманных решений и увлекается автоматизацией. Помимо работы он любит проводить время с семьей, играть в теннис, готовить и путешествовать.

Лес Чан — старший архитектор решений в компании Amazon Web Services, базирующейся в Ирвине, Калифорния. Лес с энтузиазмом работает с корпоративными клиентами над внедрением и внедрением технологических решений, уделяя особое внимание достижению бизнес-результатов клиентов. Его опыт охватывает архитектуру приложений, DevOps, бессерверное обучение и машинное обучение.

Аакиб Бикия — архитектор решений в Amazon Web Services в Южной Калифорнии. Он помогает корпоративным клиентам в сфере розничной торговли ускорять проекты и внедрять новые технологии. Области деятельности Аакиба включают машинное обучение, бессерверные технологии, аналитику и коммуникационные услуги.