Amazon Kendra — это высокоточная и простая в использовании служба интеллектуального поиска, основанная на машинном обучении (ML). Amazon Kendra предлагает набор соединителей источников данных, упрощающих процесс приема и индексирования вашего контента, где бы он ни находился.
Ценные данные в организациях хранятся как в структурированных, так и в неструктурированных репозиториях. Решение корпоративного поиска должно предоставить вам полностью управляемый опыт и упростить процесс индексации вашего контента из различных источников данных на предприятии.
Одним из таких хранилищ неструктурированных данных являются внутренние и внешние веб-сайты. Возможно, потребуется сканирование сайтов для создания новостных лент, анализа использования языка или создания ботов для ответа на вопросы на основе данных веб-сайта.
Мы рады сообщить, что теперь вы можете использовать новый веб-сканер Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах, или для создания чат-ботов. В этом посте мы покажем, как индексировать информацию, хранящуюся на веб-сайтах, и использовать интеллектуальный поиск в Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах. Кроме того, интеллектуальный поиск на основе машинного обучения может точно получить ответы на ваши вопросы из неструктурированных документов с повествовательным содержанием на естественном языке, для которых поиск по ключевым словам не очень эффективен.
Web Crawler предлагает следующие новые функции:
- Поддержка базовой аутентификации, аутентификации NTLM/Kerberos, формы и SAML.
- Возможность указать 100 исходных URL-адресов и сохранить конфигурацию подключения в Amazon Simple Storage Service (Amazon S3).
- Поддержка веб-прокси и интернет-прокси с возможностью предоставления учетных данных прокси-сервера.
- Поддержка сканирования динамического контента, например веб-сайта, содержащего JavaScript.
- Функции сопоставления полей и фильтрации регулярных выражений
Обзор решения
С помощью Amazon Kendra вы можете настроить несколько источников данных, чтобы обеспечить централизованное место для поиска по всему репозиторию документов. В рамках нашего решения мы демонстрируем, как индексировать сканируемый веб-сайт с помощью веб-сканера Amazon Kendra. Решение состоит из следующих шагов:
- Выберите механизм аутентификации для веб-сайта (при необходимости) и сохраните данные в AWS Secrets Manager.
- Создайте индекс Amazon Kendra.
- Создайте источник данных Web Crawler V2 через консоль Amazon Kendra.
- Запустите образец запроса, чтобы протестировать решение.
Предварительные условия
Чтобы опробовать Amazon Kendra Web Crawler, вам понадобится следующее:
Соберите данные аутентификации
Для защищенных и безопасных веб-сайтов поддерживаются следующие типы и стандарты аутентификации:
- Базовый
- NTLM/Керберос
- Аутентификация по форме
- SAML
Информация для аутентификации вам понадобится при настройке источника данных.
Для базовой аутентификации или аутентификации NTLM вам необходимо предоставить секрет вашего Secrets Manager, имя пользователя и пароль.
Аутентификация по форме и SAML требует дополнительной информации, как показано на следующем снимке экрана. Некоторые поля, например Пользователь кнопка имени Xpath являются необязательными и зависят от того, использует ли сайт, который вы сканируете, кнопку после ввода имени пользователя. Также обратите внимание, что вам нужно будет знать, как определить Xpath поля имени пользователя и пароля, а также кнопок отправки.
Создайте индекс Amazon Kendra
Чтобы создать индекс Amazon Kendra, выполните следующие шаги:
- На консоли Amazon Kendra выберите Создать индекс.
- Для Имя индексавведите имя индекса (например, Web Crawler).
- Введите необязательное описание.
- Для Имя роливведите имя роли IAM.
- Настройте дополнительные параметры шифрования и теги.
- Выбирать Следующий.
- в Настройка контроля доступа пользователей раздел, оставьте настройки по умолчанию и выберите Следующий.
- Для Подготовка выпусковвыбирать Версия для разработчиков и выбери Следующий.
- На странице обзора выберите Создавать.
При этом создается и распространяется роль IAM, а затем создается индекс Amazon Kendra, что может занять до 30 минут.
Создайте источник данных Amazon Kendra Web Crawler
Выполните следующие шаги, чтобы создать источник данных:
- На консоли Amazon Kendra выберите Источники данных в панели навигации.
- Найдите Коннектор WebCrawler версии 2.0 плитка и выбирай Добавить соединитель.
- Для Имя источника данныхвведите имя (например, Craw-FDA).
- Введите необязательное описание.
- Выбирать Следующий.
- в Источник раздел, выберите URL-адрес источника и введите URL-адрес. Для этого поста мы используем https://www.fda.gov/ в качестве примера исходного URL.
- в Аутентификация выберите соответствующую аутентификацию в зависимости от сайта, который вы хотите сканировать. Для этого поста мы выбираем Нет аутентификации потому что это общедоступный сайт и не требует аутентификации.
- в Веб-прокси В разделе можно указать секрет Секретного менеджера (при необходимости).
- Выбирать Создать и добавить новый секрет.
- Введите данные аутентификации, которые вы собрали ранее.
- Выбирать Сохранять.
- в Роль IAM раздел, выберите Создать новую роль и введите имя (например,
AmazonKendra-Web Crawler-datasource-role
). - Выбирать Следующий.
- в Область синхронизации В разделе настройте параметры синхронизации в зависимости от сайта, который вы сканируете. Для этого поста мы оставляем все настройки по умолчанию.
- Для Режим синхронизации, выберите способ обновления индекса. Для этого поста мы выбираем Полная синхронизация.
- Для График синхронизации запускавыбирать Запуск по требованию.
- Выбирать Следующий.
- При желании вы можете установить сопоставления полей. Для этого поста мы пока оставляем значения по умолчанию.
Сопоставление полей — это полезное упражнение, позволяющее заменить имена полей значениями, которые удобны для пользователя и соответствуют словарю вашей организации.
- Выбирать Следующий.
- Выбирать Добавить источник данных.
- Чтобы синхронизировать источник данных, выберите Синхронизировать сейчас на странице сведений об источнике данных.
- Дождитесь завершения синхронизации.
Пример проверенного веб-сайта
Если вы хотите просканировать сайт с аутентификацией, то в Аутентификация разделе предыдущих шагов, вам необходимо указать данные аутентификации. Ниже приведен пример, если вы выбрали Аутентификация по форме.
- в Источник раздел, выберите URL-адрес источника и введите URL-адрес. Для этого примера мы используем https://accounts.autodesk.com.
- в Аутентификация раздел, выберите Аутентификация по форме.
- в Веб-прокси В разделе укажите секрет Секретного менеджера. Это необходимо для любого варианта, кроме Нет аутентификации.
- Выбирать Создать и добавить новый секрет.
- Введите данные аутентификации, которые вы собрали ранее.
- Выбирать Сохранять.
Проверьте решение
Теперь, когда вы добавили контент с сайта в свой индекс Amazon Kendra, вы можете протестировать некоторые запросы.
- Перейдите в свой индекс и выберите Поиск индексированного контента.
- Введите образец поискового запроса и проверьте результаты поиска (ваш запрос будет зависеть от содержимого сайта, который вы просканировали, и введенного запроса).
Поздравляем! Вы успешно использовали Amazon Kendra для получения ответов и аналитической информации на основе контента, проиндексированного с сайта, который вы просканировали.
Очистить
Чтобы избежать будущих затрат, очистите ресурсы, созданные вами в рамках этого решения. Если вы создали новый индекс Amazon Kendra во время тестирования этого решения, удалите его. Если вы добавили новый источник данных только с помощью Amazon Kendra Web Crawler V2, удалите этот источник данных.
Заключение
С помощью нового Amazon Kendra Web Crawler V2 организации могут сканировать любой общедоступный веб-сайт или веб-сайт, требующий аутентификации, и использовать его для интеллектуального поиска на базе Amazon Kendra.
Чтобы узнать об этих и многом другом, обратитесь к Руководству разработчика Amazon Kendra. Дополнительную информацию о том, как создавать, изменять или удалять метаданные и контент при приеме данных, см. в разделах «Расширение ваших документов во время приема» и «Расширение контента и метаданных для улучшения поиска с помощью пользовательского обогащения документов в Amazon Kendra».
Об авторах
Джитен Дедхия — старший архитектор решений с более чем 20-летним опытом работы в индустрии программного обеспечения. Он работал с клиентами финансовых услуг по всему миру, предоставляя им советы по модернизации с использованием услуг, предоставляемых AWS.
Гунвант Вальбе — инженер по разработке программного обеспечения в Amazon Web Services. Он заядлый ученик и стремится внедрять новые технологии. Он разрабатывает сложные бизнес-приложения, и Java является его основным языком.