Индексируйте просканированный в Интернете контент с помощью нового веб-сканера для Amazon Kendra.

Машинное обучение

Индексируйте просканированный в Интернете контент с помощью нового веб-сканера для Amazon Kendra. | DeepTech

DEEPTECH

October 11, 2023

Amazon Kendra — это высокоточная и простая в использовании служба интеллектуального поиска, основанная на машинном обучении (ML). Amazon Kendra предлагает набор соединителей источников данных, упрощающих процесс приема и индексирования вашего контента, где бы он ни находился.

Ценные данные в организациях хранятся как в структурированных, так и в неструктурированных репозиториях. Решение корпоративного поиска должно предоставить вам полностью управляемый опыт и упростить процесс индексации вашего контента из различных источников данных на предприятии.

Одним из таких хранилищ неструктурированных данных являются внутренние и внешние веб-сайты. Возможно, потребуется сканирование сайтов для создания новостных лент, анализа использования языка или создания ботов для ответа на вопросы на основе данных веб-сайта.

Мы рады сообщить, что теперь вы можете использовать новый веб-сканер Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах, или для создания чат-ботов. В этом посте мы покажем, как индексировать информацию, хранящуюся на веб-сайтах, и использовать интеллектуальный поиск в Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах. Кроме того, интеллектуальный поиск на основе машинного обучения может точно получить ответы на ваши вопросы из неструктурированных документов с повествовательным содержанием на естественном языке, для которых поиск по ключевым словам не очень эффективен.

Web Crawler предлагает следующие новые функции:

Поддержка базовой аутентификации, аутентификации NTLM/Kerberos, формы и SAML.
Возможность указать 100 исходных URL-адресов и сохранить конфигурацию подключения в Amazon Simple Storage Service (Amazon S3).
Поддержка веб-прокси и интернет-прокси с возможностью предоставления учетных данных прокси-сервера.
Поддержка сканирования динамического контента, например веб-сайта, содержащего JavaScript.
Функции сопоставления полей и фильтрации регулярных выражений

Обзор решения

С помощью Amazon Kendra вы можете настроить несколько источников данных, чтобы обеспечить централизованное место для поиска по всему репозиторию документов. В рамках нашего решения мы демонстрируем, как индексировать сканируемый веб-сайт с помощью веб-сканера Amazon Kendra. Решение состоит из следующих шагов:

Выберите механизм аутентификации для веб-сайта (при необходимости) и сохраните данные в AWS Secrets Manager.
Создайте индекс Amazon Kendra.
Создайте источник данных Web Crawler V2 через консоль Amazon Kendra.
Запустите образец запроса, чтобы протестировать решение.

Предварительные условия

Чтобы опробовать Amazon Kendra Web Crawler, вам понадобится следующее:

Соберите данные аутентификации

Для защищенных и безопасных веб-сайтов поддерживаются следующие типы и стандарты аутентификации:

Базовый
NTLM/Керберос
Аутентификация по форме
SAML

Информация для аутентификации вам понадобится при настройке источника данных.

Для базовой аутентификации или аутентификации NTLM вам необходимо предоставить секрет вашего Secrets Manager, имя пользователя и пароль. базовая аутентификация менеджера секретов

Аутентификация по форме и SAML требует дополнительной информации, как показано на следующем снимке экрана. Некоторые поля, например Пользователь кнопка имени Xpath являются необязательными и зависят от того, использует ли сайт, который вы сканируете, кнопку после ввода имени пользователя. Также обратите внимание, что вам нужно будет знать, как определить Xpath поля имени пользователя и пароля, а также кнопок отправки.

менеджер по секретам Сэмл

Создайте индекс Amazon Kendra

Чтобы создать индекс Amazon Kendra, выполните следующие шаги:

На консоли Amazon Kendra выберите Создать индекс.
Для Имя индексавведите имя индекса (например, Web Crawler).
Введите необязательное описание.
Для Имя роливведите имя роли IAM.
Настройте дополнительные параметры шифрования и теги.
Выбирать Следующий.
в Настройка контроля доступа пользователей раздел, оставьте настройки по умолчанию и выберите Следующий.
Для Подготовка выпусковвыбирать Версия для разработчиков и выбери Следующий.
На странице обзора выберите Создавать.

При этом создается и распространяется роль IAM, а затем создается индекс Amazon Kendra, что может занять до 30 минут.

индекс Кендры

Создайте источник данных Amazon Kendra Web Crawler

Выполните следующие шаги, чтобы создать источник данных:

На консоли Amazon Kendra выберите Источники данных в панели навигации.
Найдите Коннектор WebCrawler версии 2.0 плитка и выбирай Добавить соединитель.
Для Имя источника данныхвведите имя (например, Craw-FDA).
Введите необязательное описание.
Выбирать Следующий.
в Источник раздел, выберите URL-адрес источника и введите URL-адрес. Для этого поста мы используем https://www.fda.gov/ в качестве примера исходного URL.
в Аутентификация выберите соответствующую аутентификацию в зависимости от сайта, который вы хотите сканировать. Для этого поста мы выбираем Нет аутентификации потому что это общедоступный сайт и не требует аутентификации.
в Веб-прокси В разделе можно указать секрет Секретного менеджера (при необходимости).
1. Выбирать Создать и добавить новый секрет.
2. Введите данные аутентификации, которые вы собрали ранее.
3. Выбирать Сохранять.
в Роль IAM раздел, выберите Создать новую роль и введите имя (например, AmazonKendra-Web Crawler-datasource-role).
Выбирать Следующий.
в Область синхронизации В разделе настройте параметры синхронизации в зависимости от сайта, который вы сканируете. Для этого поста мы оставляем все настройки по умолчанию.
Для Режим синхронизации, выберите способ обновления индекса. Для этого поста мы выбираем Полная синхронизация.
Для График синхронизации запускавыбирать Запуск по требованию.
Выбирать Следующий.
При желании вы можете установить сопоставления полей. Для этого поста мы пока оставляем значения по умолчанию.

Сопоставление полей — это полезное упражнение, позволяющее заменить имена полей значениями, которые удобны для пользователя и соответствуют словарю вашей организации.

Выбирать Следующий.
Выбирать Добавить источник данных.
Чтобы синхронизировать источник данных, выберите Синхронизировать сейчас на странице сведений об источнике данных.
Дождитесь завершения синхронизации.

Пример проверенного веб-сайта

Если вы хотите просканировать сайт с аутентификацией, то в Аутентификация разделе предыдущих шагов, вам необходимо указать данные аутентификации. Ниже приведен пример, если вы выбрали Аутентификация по форме.

в Источник раздел, выберите URL-адрес источника и введите URL-адрес. Для этого примера мы используем https://accounts.autodesk.com.
в Аутентификация раздел, выберите Аутентификация по форме.
в Веб-прокси В разделе укажите секрет Секретного менеджера. Это необходимо для любого варианта, кроме Нет аутентификации.
1. Выбирать Создать и добавить новый секрет.
2. Введите данные аутентификации, которые вы собрали ранее.
3. Выбирать Сохранять.

Проверьте решение

Теперь, когда вы добавили контент с сайта в свой индекс Amazon Kendra, вы можете протестировать некоторые запросы.

Перейдите в свой индекс и выберите Поиск индексированного контента.
Введите образец поискового запроса и проверьте результаты поиска (ваш запрос будет зависеть от содержимого сайта, который вы просканировали, и введенного запроса).

Поздравляем! Вы успешно использовали Amazon Kendra для получения ответов и аналитической информации на основе контента, проиндексированного с сайта, который вы просканировали.

Очистить

Чтобы избежать будущих затрат, очистите ресурсы, созданные вами в рамках этого решения. Если вы создали новый индекс Amazon Kendra во время тестирования этого решения, удалите его. Если вы добавили новый источник данных только с помощью Amazon Kendra Web Crawler V2, удалите этот источник данных.

Заключение

С помощью нового Amazon Kendra Web Crawler V2 организации могут сканировать любой общедоступный веб-сайт или веб-сайт, требующий аутентификации, и использовать его для интеллектуального поиска на базе Amazon Kendra.

Чтобы узнать об этих и многом другом, обратитесь к Руководству разработчика Amazon Kendra. Дополнительную информацию о том, как создавать, изменять или удалять метаданные и контент при приеме данных, см. в разделах «Расширение ваших документов во время приема» и «Расширение контента и метаданных для улучшения поиска с помощью пользовательского обогащения документов в Amazon Kendra».

Об авторах

Джитен Дедхия — старший архитектор решений с более чем 20-летним опытом работы в индустрии программного обеспечения. Он работал с клиентами финансовых услуг по всему миру, предоставляя им советы по модернизации с использованием услуг, предоставляемых AWS.

Гунвант Вальбе — инженер по разработке программного обеспечения в Amazon Web Services. Он заядлый ученик и стремится внедрять новые технологии. Он разрабатывает сложные бизнес-приложения, и Java является его основным языком.