Home Машинное обучение Создайте решение для проверки вакцинации с помощью функции запросов в Amazon Textract. | DeepTech

Создайте решение для проверки вакцинации с помощью функции запросов в Amazon Textract. | DeepTech

0
Создайте решение для проверки вакцинации с помощью функции запросов в Amazon Textract.
 | DeepTech

Amazon Textract — это сервис машинного обучения (ML), который позволяет автоматически извлекать текст, рукописный текст и данные из отсканированных документов, превосходя традиционное оптическое распознавание символов (OCR). Он может идентифицировать, понимать и извлекать данные из таблиц и форм с поразительной точностью. В настоящее время несколько компаний полагаются на методы ручного извлечения или базовое программное обеспечение для оптического распознавания символов, что является утомительным и трудоемким и требует ручной настройки, которая требует обновления при изменении формы. Amazon Textract помогает решить эти проблемы, используя машинное обучение для автоматической обработки различных типов документов и точного извлечения информации с минимальным вмешательством вручную. Это позволяет автоматизировать обработку документов и использовать извлеченные данные для различных целей, например для автоматизации обработки кредитов или сбора информации из счетов и квитанций.

Поскольку путешествия возобновляются после пандемии, во многих случаях может потребоваться проверка вакцинационного статуса путешественника. Отелям и туристическим агентствам часто приходится проверять карты вакцинации, чтобы собрать важную информацию, например, полностью ли вакцинирован путешественник, даты вакцинации и имя путешественника. Некоторые агентства делают это путем ручной проверки карт, что может отнимать у сотрудников много времени и оставляет место для человеческих ошибок. Другие разработали собственные решения, но они могут быть дорогостоящими и сложными в масштабировании, а их внедрение может занять значительное время. В будущем могут появиться возможности упростить процесс проверки статуса вакцинации таким образом, чтобы это было эффективно для бизнеса, сохраняя при этом конфиденциальность и удобство путешественников.

Amazon Textract Queries помогает решить эти проблемы. Amazon Textract Queries позволяет указать и извлечь из документа только ту часть информации, которая вам нужна. Это дает вам точную и точную информацию из документа.

В этом посте мы познакомим вас с пошаговым руководством по созданию решения для проверки статуса вакцинации с использованием запросов Amazon Textract. Решение демонстрирует, как обрабатывать карты вакцинации с помощью запроса Amazon Textract, проверять статус вакцинации и сохранять информацию для будущего использования.

Обзор решения

На следующей диаграмме показана архитектура решения.

Рабочий процесс включает в себя следующие этапы:

  1. Пользователь фотографирует карту прививок.
  2. Изображение загружается в корзину Amazon Simple Storage Service (Amazon S3).
  3. Когда изображение сохраняется в корзине S3, оно вызывает рабочий процесс AWS Step Functions:
  4. Функция Queries-Decider AWS Lambda проверяет переданный документ и добавляет информацию о типе mime, количестве страниц и количестве запросов в рабочий процесс Step Functions (в нашем примере у нас есть четыре запроса).
  5. NumberQueriesAndPagesChoice — это состояние выбора, которое добавляет условную логику в рабочий процесс. Если имеется от 15 до 31 запроса и количество страниц составляет от 2 до 3 001, то асинхронная обработка Amazon Textract является единственным вариантом, поскольку синхронные API поддерживают только до 15 запросов и одностраничных документов. Во всех остальных случаях мы направляем случайный выбор синхронной или асинхронной обработки.
  6. TextractSync Лямбда-функция отправляет запрос в Amazon Textract для анализа документа на основе следующих запросов Amazon Textract:
    1. Что такое статус вакцинации?
    2. Как зовут?
    3. Что такое Дата рождения?
    4. Что такое номер документа?
  7. Amazon Textract анализирует изображение и отправляет ответы на эти запросы обратно в функцию Lambda.
  8. Функция Lambda проверяет статус вакцинации клиента и сохраняет окончательный результат в формате CSV в той же корзине S3 (demoqueries-textractxxx) в csv-output папка.

Предварительные условия

Для реализации этого решения у вас должна быть учетная запись AWS и соответствующие разрешения для создания ресурсов, необходимых в рамках решения.

Загрузите код развертывания и образец карты вакцинации с сайта GitHub.

Используйте функцию «Запросы» в консоли Amazon Textract.

Прежде чем создавать решение для проверки вакцинации, давайте рассмотрим, как можно использовать запросы Amazon Textract для получения статуса вакцинации через консоль Amazon Textract. Вы можете использовать образец карты вакцинации, скачанный из репозитория GitHub.

  1. В консоли Amazon Textract выберите Анализ документа в панели навигации.
  2. Под Загрузить документвыбирать Выберите документ чтобы загрузить карту вакцинации с локального диска.
  3. После загрузки документа выберите Запросы в Настроить документ раздел.
  4. Затем вы можете добавить запросы в форме вопросов на естественном языке. Добавим следующее:
    • Что такое статус вакцинации?
    • Как зовут?
    • Что такое Дата рождения?
    • Что такое номер документа?
  5. После добавления всех запросов выберите Применить конфигурацию.
  6. Проверьте запросы вкладка, чтобы увидеть ответы на вопросы.

Вы можете видеть, что Amazon Textract извлекает ответ на ваш запрос из документа.

Развертывание решения для проверки вакцинации

В этом посте мы используем экземпляр AWS Cloud9 и устанавливаем необходимые зависимости от него с помощью AWS Cloud Development Kit (AWS CDK) и Docker. AWS Cloud9 — это облачная интегрированная среда разработки (IDE), которая позволяет писать, запускать и отлаживать код с помощью всего лишь браузера.

  1. В терминале выберите Загрузить локальные файлы на Файл меню.
  2. Выбирать Выберите папку и выберите vaccination_verification_solution папка, которую вы скачали с GitHub.
  3. В терминале подготовьте бессерверное приложение для последующих шагов рабочего процесса разработки в модели бессерверных приложений AWS (AWS SAM), используя следующую команду:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Разверните приложение с помощью cdk deploy команда:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Подождите, пока AWS CDK развернет модель и создаст ресурсы, упомянутые в шаблоне.

  5. После завершения развертывания вы можете проверить развернутые ресурсы в консоли AWS CloudFormation на Ресурсы вкладка страницы сведений о стеке.

Проверьте решение

Теперь пришло время протестировать решение. Чтобы запустить рабочий процесс, используйте aws s3 cp загрузить vac_card.jpg файл в DemoQueries.DocumentUploadLocation внутри папки документов:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports(?Name==`DemoQueries-DocumentUploadLocation`).Value' --output text)


Файл сертификата о вакцинации автоматически загружается в корзину S3. demoqueries-textractxxx в папке загрузок.

Рабочий процесс Step Functions запускается с помощью функции Lambda, как только файл сертификата о вакцинации загружается в корзину S3.

Функция Queries-Decider Lambda проверяет документ и добавляет информацию о типе mime, количестве страниц и количестве запросов в рабочий процесс Step Functions (в этом примере мы используем четыре запроса — номер документа, имя клиента, дату рождения и статус вакцинации).

TextractSync Функция отправляет входные запросы в Amazon Textract и синхронно возвращает полный результат как часть ответа. Он поддерживает одностраничные документы (TIFF, PDF, JPG, PNG) и до 15 запросов. GenerateCsvTask Функция принимает выходные данные JSON из Amazon Textract и преобразует их в файл CSV.

Конечный результат сохраняется в том же сегменте S3 в папке вывода CSV, что и файл CSV.

Вы можете загрузить файл на свой локальный компьютер, используя следующую команду:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Формат результата: timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Вы можете масштабировать решение для сотен документов сертификатов о вакцинации для нескольких клиентов, загрузив их сертификаты о вакцинации в DemoQueries.DocumentUploadLocation. Это автоматически запускает несколько запусков конечного автомата Step Functions, а конечный результат сохраняется в том же сегменте S3 в папке вывода csv.

Чтобы изменить исходный набор запросов, поступающих в Amazon Textract, вы можете перейти к своему экземпляру AWS Cloud9 и открыть файл start_execution.py. В представлении файлов на левой панели перейдите к лямбда-выражению, start_queries, app, start_execution.py. Эта функция Lambda вызывается, когда файл загружается на DemoQueries.DocumentUploadLocation. Запросы, отправляемые в рабочий процесс, определены в start_execution.py; вы можете изменить их, обновив код, как показано на следующем снимке экрана.

Очистить

Чтобы избежать текущих расходов, удалите ресурсы, созданные в этом сообщении, с помощью следующей команды:

Ответ на вопрос Are you sure you want to delete: DemoQueries (y/n)? с ю.

Заключение

В этом посте мы показали вам, как использовать запросы Amazon Textract для создания решения по проверке вакцинации для туристической индустрии. Вы можете использовать Amazon Textract Queries для создания решений в других отраслях, таких как финансы и здравоохранение, а также получать информацию из таких документов, как платежные квитанции, ипотечные квитанции и страховые карты, на основе вопросов на естественном языке.

Дополнительную информацию см. в разделе «Анализ документов» или воспользуйтесь консолью Amazon Textract и опробуйте эту функцию.


Об авторах

Дирадж Тхакур — архитектор решений в Amazon Web Services. Он работает с клиентами и партнерами AWS, предоставляя рекомендации по внедрению, миграции и стратегии корпоративного облака. Он увлечен технологиями, ему нравится создавать и экспериментировать в области аналитики и искусственного интеллекта и машинного обучения.

Ришаб Ядав — архитектор партнерских решений в AWS с обширным опытом работы в области DevOps и предложений безопасности в AWS. Он работает с партнерами из АСЕАН, предоставляя рекомендации по внедрению корпоративных облаков и анализу архитектуры, а также формируя практики AWS посредством внедрения Well-Architected Framework. В свободное от работы время он любит заниматься спортом и играть в шутеры от первого лица.

LEAVE A REPLY

Please enter your comment!
Please enter your name here