Home Машинное обучение Предоставьте своим бизнес-пользователям возможность извлекать ценную информацию из документов компании с помощью генеративного искусственного интеллекта Amazon SageMaker Canvas. | DeepTech

Предоставьте своим бизнес-пользователям возможность извлекать ценную информацию из документов компании с помощью генеративного искусственного интеллекта Amazon SageMaker Canvas. | DeepTech

0
Предоставьте своим бизнес-пользователям возможность извлекать ценную информацию из документов компании с помощью генеративного искусственного интеллекта Amazon SageMaker Canvas.
 | DeepTech

Предприятия стремятся использовать потенциал машинного обучения (ML) для решения сложных проблем и улучшения результатов. До недавнего времени создание и развертывание моделей машинного обучения требовало глубоких технических навыков и навыков программирования, включая настройку моделей машинного обучения и поддержание рабочих конвейеров. С момента своего появления в 2021 году Amazon SageMaker Canvas позволяет бизнес-аналитикам создавать, развертывать и использовать различные модели машинного обучения, включая табличные, компьютерное зрение и обработку естественного языка, без написания ни строчки кода. Это ускорило возможности предприятий применять машинное обучение в таких случаях, как прогнозирование временных рядов, прогнозирование оттока клиентов, анализ настроений, обнаружение промышленных дефектов и многие другие.

Как было объявлено 5 октября 2023 г., SageMaker Canvas расширил поддержку моделей до базовых моделей (FM) — больших языковых моделей, используемых для создания и обобщения контента. В выпуске от 12 октября 2023 г. SageMaker Canvas позволяет пользователям задавать вопросы и получать ответы, основанные на корпоративных данных. Это гарантирует, что результаты зависят от контекста, открывая дополнительные варианты использования, в которых машинное обучение без кода может быть применено для решения бизнес-задач. Например, бизнес-команды теперь могут формулировать ответы, соответствующие специфическому словарю и принципам организации, а также могут быстрее запрашивать объемные документы, чтобы получать ответы, конкретные и основанные на содержании этих документов. Весь этот контент создается конфиденциально и безопасно, гарантируя, что доступ ко всем конфиденциальным данным осуществляется с помощью надлежащего управления и защиты.

Для начала администратор облака настраивает и заполняет индексы Amazon Kendra корпоративными данными в качестве источников данных для SageMaker Canvas. Пользователи Canvas выбирают индекс, в котором находятся их документы, и могут размышлять, исследовать и исследовать, зная, что результаты всегда будут подкреплены их источниками истины. SageMaker Canvas использует самые современные FM от Amazon Bedrock и Amazon SageMaker JumpStart. Разговоры можно начать с нескольких FM, сравнив результаты и по-настоящему сделав генеративный ИИ доступным для всех.

В этом посте мы рассмотрим недавно выпущенную функцию, обсудим архитектуру и представим пошаговое руководство, позволяющее SageMaker Canvas запрашивать документы из вашей базы знаний, как показано на следующем снимке экрана.

Обзор решения

Модели Фонда могут вызывать галлюцинации – реакции, которые являются общими, расплывчатыми, несвязанными или фактически неверными. Восстановительная дополненная генерация (RAG) — это часто используемый подход для уменьшения галлюцинаций. Архитектуры RAG используются для получения данных из-за пределов FM, которые затем используются для контекстного обучения для ответа на запрос пользователя. Это гарантирует, что FM может использовать данные из надежной базы знаний и использовать эти знания для ответа на вопросы пользователей, снижая риск галлюцинаций.

При использовании RAG данные, внешние по отношению к FM и используемые для дополнения подсказок пользователю, могут поступать из нескольких разрозненных источников данных, таких как репозитории документов, базы данных или API. Первым шагом является преобразование ваших документов и любых пользовательских запросов в совместимый формат для выполнения семантического поиска по релевантности. Чтобы обеспечить совместимость форматов, коллекция документов или библиотека знаний, а также отправленные пользователем запросы преобразуются в числовые представления с использованием моделей внедрения.

В этом выпуске функциональность RAG предоставляется без использования кода и без каких-либо проблем. Предприятия могут расширить возможности чата в Canvas с помощью Amazon Kendra в качестве базовой системы управления знаниями. На следующей диаграмме показана архитектура решения.

Для подключения SageMaker Canvas к Amazon Kendra требуется однократная настройка. Мы подробно описываем процесс настройки в разделе «Настройка Canvas для запроса документов». Если вы еще не настроили свой домен SageMaker, см. раздел Подключение к домену Amazon SageMaker.

В рамках конфигурации домена администратор облака может выбрать один или несколько индексов Kendra, которые бизнес-аналитик может запросить при взаимодействии с FM через SageMaker Canvas.

После того как индексы Kendra гидратированы и настроены, бизнес-аналитики используют их с SageMaker Canvas, начиная новый чат и выбирая переключатель «Запросить документы». Затем SageMaker Canvas будет управлять базовой связью между Amazon Kendra и выбранным FM для выполнения следующих операций:

  1. Запросите индексы Кендры, задав вопрос пользователя.
  2. Получите фрагменты (и источники) из индексов Кендры.
  3. Спроектируйте приглашение с фрагментами исходного запроса, чтобы базовая модель могла генерировать ответ на основе полученных документов.
  4. Предоставьте пользователю сгенерированный ответ вместе со ссылками на страницы/документы, которые использовались для формулирования ответа.

Настройка Canvas для запроса документов

В этом разделе мы покажем вам, как настроить Canvas для запроса документов, обслуживаемых через индексы Kendra. У вас должны быть следующие предпосылки:

  • Настройка домена SageMaker — подключение к домену Amazon SageMaker
  • Создайте индекс Кендры (или несколько)
  • Настройте коннектор Kendra Amazon S3 (следуйте коннектору Amazon S3) и загрузите PDF-файлы и другие документы в корзину Amazon S3, связанную с индексом Kendra.
  • Настройте IAM так, чтобы у Canvas были соответствующие разрешения, в том числе необходимые для вызова конечных точек Amazon Bedrock и/или SageMaker — следуйте документации по настройке Canvas Chat.

Теперь вы можете обновить Домен, чтобы он мог получить доступ к нужным индексам. На консоли SageMaker для данного домена выберите «Изменить» на вкладке «Настройки домена». Включите переключатель «Включить запросы документов с помощью Amazon Kendra», который можно найти на этапе «Настройки холста». После активации выберите один или несколько индексов Kendra, которые вы хотите использовать с Canvas. После активации выберите один или несколько индексов Kendra, которые вы хотите использовать с Canvas.

Это все, что нужно для настройки функции документов запроса Canvas. Теперь пользователи могут вступить в чат в Canvas и начать использовать базы знаний, прикрепленные к домену через индексы Kendra. Сопровождающие базу знаний могут продолжать обновлять источник истины, а благодаря возможности синхронизации в Kendra пользователи чата автоматически смогут беспрепятственно использовать актуальную информацию.

Использование функции запроса документов для чата

Пользователи SageMaker Canvas могут получить доступ к функции «Запрос документов» из чата. Чтобы начать сеанс чата, нажмите или найдите кнопку «Создать, извлечь и обобщить контент» на вкладке «Готовые к использованию модели» в SageMaker Canvas.

Оказавшись там, вы можете включать и выключать запросы документов с помощью переключателя в верхней части экрана. Ознакомьтесь с информационным сообщением, чтобы узнать больше об этой функции.

Если функция «Документы запросов» включена, вы можете выбирать из списка индексов Kendra, включенного администратором облака.

Вы можете выбрать индекс при запуске нового чата. Затем вы можете задать вопрос в UX, при этом знания будут автоматически получены из выбранного индекса. Обратите внимание, что после начала диалога по определенному индексу невозможно переключиться на другой индекс.

На заданные вопросы в чате будет показан ответ, сгенерированный FM, а также исходные документы, которые способствовали формированию ответа. При нажатии на любой из исходных документов Canvas открывает предварительный просмотр документа, выделяя отрывок, используемый FM.

Заключение

Разговорный ИИ обладает огромным потенциалом для преобразования опыта клиентов и сотрудников, предоставляя человекоподобного помощника с естественными и интуитивно понятными взаимодействиями, такими как:

  • Проведение исследования по теме или поиск и просмотр базы знаний организации.
  • Обобщение объемов контента для быстрого сбора информации
  • Поиск сущностей, настроений, личных данных и других полезных данных, а также повышение бизнес-ценности неструктурированного контента.
  • Создание черновиков документов и деловой переписки.
  • Создание статей знаний из разрозненных внутренних источников (инциденты, журналы чатов, вики)

Инновационная интеграция интерфейсов чата, поиска знаний и FM позволяет предприятиям предоставлять точные и актуальные ответы на вопросы пользователей, используя свои знания в предметной области и источники достоверной информации.

Подключив SageMaker Canvas к базам знаний в Amazon Kendra, организации могут хранить свои собственные данные в своей среде, сохраняя при этом преимущества современных возможностей FM, использующих естественный язык. С запуском функции «Документы запросов» в SageMaker Canvas мы облегчаем любому предприятию использование LLM и их корпоративных знаний в качестве источника достоверной информации для обеспечения безопасного чата. Вся эта функциональность доступна в формате без кода, что позволяет предприятиям избежать выполнения повторяющихся и неспециализированных задач.

Чтобы узнать больше о SageMaker Canvas и о том, как оно помогает каждому начать работу с машинным обучением, ознакомьтесь с объявлением о SageMaker Canvas. Узнайте больше о том, как SageMaker Canvas помогает наладить сотрудничество между учеными, работающими с данными, и бизнес-аналитиками, прочитав публикацию «Создание, совместное использование и развертывание». Наконец, чтобы узнать, как создать собственный рабочий процесс извлечения дополненной генерации, обратитесь к SageMaker JumpStart RAG.

Рекомендации

Льюис П., Перес Э., Пиктус А., Петрони Ф., Карпухин В., Гоял Н., Кюттлер Х., Льюис М., Йих В., Роктешель Т., Ридель С., Киела Д. (2020). Генерация с расширенным поиском для наукоемких задач НЛП. Достижения в области нейронных систем обработки информации, 339459-9474.


Об авторах

Фотография ДавидеДавиде Галлителли — старший специалист по архитектуре решений для искусственного интеллекта и машинного обучения. Он живет в Брюсселе и тесно сотрудничает с клиентами по всему миру, которые хотят внедрить технологии машинного обучения с низким кодом и без кода, а также генеративный искусственный интеллект. Он был разработчиком с самого раннего возраста и начал программировать в возрасте 7 лет. Он начал изучать AI/ML в университете и с тех пор влюбился в это.

Билал Алам — архитектор корпоративных решений в AWS, специализирующийся на сфере финансовых услуг. Большую часть времени Билал помогает клиентам создавать, модернизировать и обеспечивать безопасность среды AWS для развертывания наиболее важных рабочих нагрузок. Он имеет обширный опыт работы в сфере телекоммуникаций, сетей и разработки программного обеспечения. Совсем недавно он изучал возможность использования искусственного интеллекта и машинного обучения для решения бизнес-задач.

Пашмин Мистри — старший менеджер по продукту в AWS. Вне работы Пашмин любит приключенческие походы, фотографирование и времяпровождение со своей семьей.

Дэн Синнрайх — старший менеджер по продуктам в AWS, помогающий демократизировать машинное обучение с низким кодом и без него. До работы в AWS Дэн создавал и коммерциализировал корпоративные SaaS-платформы и модели временных рядов, используемые институциональными инвесторами для управления рисками и построения оптимальных портфелей. В свободное от работы время он играет в хоккей, занимается подводным плаванием и читает научную фантастику.

LEAVE A REPLY

Please enter your comment!
Please enter your name here