Home Машинное обучение Экономичная классификация документов с использованием модели мультимодального внедрения Amazon Titan | DeepTech

Экономичная классификация документов с использованием модели мультимодального внедрения Amazon Titan | DeepTech

0
Экономичная классификация документов с использованием модели мультимодального внедрения Amazon Titan
 | DeepTech

Организации из разных отраслей хотят классифицировать и извлекать ценную информацию из больших объемов документов разных форматов. Обработка этих документов вручную для классификации и извлечения информации остается дорогостоящей, подверженной ошибкам и трудно масштабируемой. Достижения в области генеративного искусственного интеллекта (ИИ) привели к появлению решений интеллектуальной обработки документов (IDP), которые могут автоматизировать классификацию документов и создать экономически эффективный уровень классификации, способный обрабатывать разнообразные неструктурированные корпоративные документы.

Категоризация документов является важным первым шагом в системах ВПЛ. Это поможет вам определить следующий набор действий в зависимости от типа документа. Например, в процессе рассмотрения претензий группа по работе с кредиторской задолженностью получает счет-фактуру, тогда как отдел претензий управляет документами по контракту или политике. Традиционные механизмы правил или классификация на основе машинного обучения могут классифицировать документы, но часто достигают ограничения на типы форматов документов и поддержку динамического добавления новых классов документов. Дополнительную информацию см. в разделе Классификатор документов Amazon Comprehend добавляет поддержку макета для повышения точности.

В этом посте мы обсуждаем классификацию документов с использованием модели Amazon Titan Multimodal Embeddings для классификации любых типов документов без необходимости обучения.

Мультимодальные встраивания Amazon Titan

Amazon недавно представила мультимодальные встраивания Titan в Amazon Bedrock. Эта модель может создавать внедрения для изображений и текста, что позволяет создавать внедрения документов для использования в новых рабочих процессах классификации документов.

Он генерирует оптимизированные векторные представления документов, отсканированных как изображения. Кодируя как визуальные, так и текстовые компоненты в единые числовые векторы, инкапсулирующие семантическое значение, он обеспечивает быструю индексацию, мощный контекстный поиск и точную классификацию документов.

По мере появления новых шаблонов и типов документов в рабочих процессах бизнеса вы можете просто вызвать API Amazon Bedrock для их динамической векторизации и добавления в их системы IDP, чтобы быстро расширить возможности классификации документов.

Обзор решения

Давайте рассмотрим следующее решение для классификации документов с помощью модели Amazon Titan Multimodal Embeddings. Для достижения оптимальной производительности вам следует настроить решение в соответствии с вашим конкретным вариантом использования и существующей настройкой конвейера IDP.

Это решение классифицирует документы с помощью семантического поиска с векторным внедрением, сопоставляя входной документ с уже проиндексированной галереей документов. Мы используем следующие ключевые компоненты:

  • Вложения – Встраивания – это численные представления объектов реального мира, которые системы машинного обучения (МО) и искусственного интеллекта используют для понимания сложных областей знаний, как это делают люди.
  • Векторные базы данных – Векторные базы данных используются для хранения вложений. Базы данных векторов эффективно индексируют и организуют вложения, обеспечивая быстрый поиск похожих векторов на основе таких показателей расстояния, как евклидово расстояние или косинусное сходство.
  • Семантический поиск – Семантический поиск работает, учитывая контекст и значение входного запроса, а также его релевантность искомому контенту. Векторные внедрения — эффективный способ уловить и сохранить контекстное значение текста и изображений. В нашем решении, когда приложение хочет выполнить семантический поиск, документ поиска сначала преобразуется во встраивание. Затем выполняется запрос к базе данных векторов с соответствующим содержимым для поиска наиболее похожих вложений.

В процессе маркировки примерный набор деловых документов, таких как счета-фактуры, банковские выписки или рецепты, преобразуется во внедренные элементы с использованием модели мультимодальных внедрений Amazon Titan и сохраняется в векторной базе данных с предварительно заданными этикетками. Модель мультимодального встраивания Amazon Titan была обучена с использованием алгоритма Евклида L2, поэтому для достижения наилучших результатов используемая векторная база данных должна поддерживать этот алгоритм.

На следующей диаграмме архитектуры показано, как можно использовать модель мультимодального внедрения Amazon Titan с документами в корзине Amazon Simple Storage Service (Amazon S3) для создания галереи изображений.

Рабочий процесс состоит из следующих этапов:

  1. Пользователь или приложение загружает образец изображения документа с метаданными классификации в галерею изображений документа. Префикс S3 или метаданные объекта S3 можно использовать для классификации изображений галереи.
  2. Событие уведомления об объекте Amazon S3 вызывает встроенную функцию AWS Lambda.
  3. Функция Lambda считывает изображение документа и преобразует его во встраивания, вызывая Amazon Bedrock и используя модель мультимодальных вложений Amazon Titan.
  4. Внедренные изображения вместе с классификацией документов хранятся в базе данных векторов.

Это диаграмма архитектуры, которая иллюстрирует, как Titan Multimodal Embeddings можно использовать с документами в корзине Amazon Simple Storage Service (Amazon S3) для создания и классификации галерей изображений.

Когда новый документ требует классификации, та же модель внедрения используется для преобразования документа запроса во внедрение. Затем в векторной базе данных выполняется поиск семантического сходства с использованием внедрения запроса. Метка, полученная по верхнему совпадению внедрения, будет меткой классификации для документа запроса.

На следующей диаграмме архитектуры показано, как использовать модель мультимодального внедрения Amazon Titan с документами в корзине S3 для классификации изображений.

Рабочий процесс состоит из следующих этапов:

  1. Документы, требующие классификации, загружаются во входную корзину S3.
  2. Функция классификации Lambda получает уведомление об объекте Amazon S3.
  3. Функция Lambda преобразует изображение во встраивание, вызывая API Amazon Bedrock.
  4. В базе данных векторов выполняется поиск соответствующего документа с использованием семантического поиска. Классификация соответствующего документа используется для классификации входного документа.
  5. Входной документ перемещается в целевой каталог или префикс S3 с использованием классификации, полученной в результате поиска в базе данных векторов.

Это диаграмма архитектуры, которая иллюстрирует, как Titan Multimodal Embeddings можно использовать с документами в корзине Amazon Simple Storage Service (Amazon S3) для классификации изображений.

Чтобы помочь вам протестировать решение с использованием собственных документов, мы создали пример блокнота Python Jupyter, который доступен на сайте GitHub.

Предварительные условия

Чтобы запустить блокнот, вам понадобится учетная запись AWS с соответствующими разрешениями AWS Identity and Access Management (IAM) для вызова Amazon Bedrock. Кроме того, на Доступ к модели странице консоли Amazon Bedrock убедитесь, что доступ предоставлен для модели Amazon Titan Multimodal Embeddings.

Выполнение

Выполнив следующие действия, замените каждый заполнитель, вводимый пользователем, своей собственной информацией:

  1. Создайте базу данных векторов. В этом решении мы используем базу данных FAISS в памяти, но вы можете использовать альтернативную базу данных векторов. Размер измерения Amazon Titan по умолчанию — 1024.
index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

  1. После создания базы данных векторов переберите образцы документов, создайте вложения каждого из них и сохраните их в базе данных векторов.
  1. Проверьте свои документы. Замените папки в следующем коде собственными папками, содержащими известные типы документов:
DOC_CLASSES: list(str) = ("Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement")

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

  1. Используя библиотеку Boto3, позвоните в Amazon Bedrock. Переменная inputImageB64 — это массив байтов в кодировке Base64, представляющий ваш документ. Ответ от Amazon Bedrock содержит вложения.
bedrock = boto3.client(
service_name="bedrock-runtime",
region_name="Region’
)

request_body = {}
request_body("inputText") = None # not using any text
request_body("inputImage") = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read()) 

  1. Добавьте внедрения в базу данных векторов с идентификатором класса, представляющим известный тип документа:
indexIDMap.add_with_ids(embeddings, classID)

  1. С помощью векторной базы данных, заполненной изображениями (представляющими нашу галерею), вы можете обнаружить сходство с новыми документами. Например, ниже приведен синтаксис, используемый для поиска. Значение k=1 указывает FAISS вернуть первое совпадение.
indexIDMap.search(embeddings, k=1)

Кроме того, также возвращается евклидово расстояние L2 между имеющимся изображением и найденным изображением. Если изображение точно совпадает, это значение будет равно 0. Чем больше это значение, тем дальше друг от друга сходство изображений.

Дополнительные соображения

В этом разделе мы обсудим дополнительные соображения по эффективному использованию решения. Сюда входит конфиденциальность данных, безопасность, интеграция с существующими системами и смета затрат.

Конфиденциальность и безопасность данных

Модель общей ответственности AWS применяется к защите данных в Amazon Bedrock. Как описано в этой модели, AWS отвечает за защиту глобальной инфраструктуры, на которой работает все облако AWS. Клиенты несут ответственность за сохранение контроля над своим контентом, размещенным в этой инфраструктуре. Как клиент вы несете ответственность за настройку безопасности и задачи управления для сервисов AWS, которые вы используете.

Защита данных в Amazon Bedrock

Amazon Bedrock избегает использования подсказок и продолжений для клиентов для обучения моделей AWS или передачи их третьим лицам. Amazon Bedrock не хранит и не регистрирует данные клиентов в своих журналах обслуживания. Поставщики моделей не имеют доступа к журналам Amazon Bedrock или доступа к подсказкам и продолжениям для клиентов. В результате изображения, используемые для создания внедрений с помощью модели мультимодальных внедрений Amazon Titan, не сохраняются и не используются при обучении моделей AWS или внешнем распространении. Кроме того, из обучения модели исключаются другие данные об использовании, такие как метки времени и зарегистрированные идентификаторы учетных записей.

Интеграция с существующими системами

Модель Amazon Titan Multimodal Embeddings прошла обучение с использованием алгоритма Евклида L2, поэтому используемая векторная база данных должна быть совместима с этим алгоритмом.

Оценка стоимости

На момент написания этой статьи в соответствии с ценами Amazon Bedrock для модели мультимодальных встраиваний Amazon Titan ниже приведены ориентировочные затраты с использованием цен по требованию для этого решения:

  • Единовременная стоимость индексации – 0,06 доллара США за один прогон индексации при условии, что галерея содержит 1000 изображений.
  • Стоимость классификации – 6 долларов США за 100 000 входных изображений в месяц

Очистить

Чтобы избежать будущих расходов, удаляйте созданные вами ресурсы, например экземпляр блокнота Amazon SageMaker, когда они не используются.

Заключение

В этой статье мы рассмотрели, как можно использовать модель мультимодальных внедрений Amazon Titan для создания недорогого решения для классификации документов в рабочем процессе IDP. Мы продемонстрировали, как создать галерею изображений известных документов и выполнить поиск по сходству с новыми документами для их классификации. Мы также обсудили преимущества использования мультимодальных вложений изображений для классификации документов, включая их способность обрабатывать различные типы документов, масштабируемость и низкую задержку.

По мере появления новых шаблонов и типов документов в бизнес-процессах разработчики могут вызывать API Amazon Bedrock для их динамической векторизации и добавления в свои системы IDP, чтобы быстро расширить возможности классификации документов. Это создает недорогой, бесконечно масштабируемый уровень классификации, который может обрабатывать даже самые разнообразные и неструктурированные корпоративные документы.

В целом, эта статья представляет собой план создания недорогого решения для классификации документов в рабочем процессе IDP с использованием мультимодальных внедрений Amazon Titan.

В качестве следующих шагов ознакомьтесь с разделом «Что такое Amazon Bedrock», чтобы начать использовать сервис. Следите за Amazon Bedrock в блоге машинного обучения AWS, чтобы быть в курсе новых возможностей и вариантов использования Amazon Bedrock.


Об авторах

Сумит Бхати — старший менеджер по работе с клиентами в AWS, специализируется на ускорении перехода корпоративных клиентов в облако. Компания Sumit стремится помогать клиентам на всех этапах внедрения облачных технологий: от ускорения миграции до модернизации рабочих нагрузок и облегчения интеграции инновационных практик.

Дэвид Гирлинг — старший архитектор решений AI/ML с более чем 20-летним опытом проектирования, руководства и разработки корпоративных систем. Дэвид входит в команду специалистов, которая помогает клиентам учиться, внедрять инновации и использовать эти высокофункциональные сервисы со своими данными в своих сценариях использования.

Рави Авула — старший архитектор решений в AWS, специализирующийся на архитектуре предприятия. Рави имеет 20-летний опыт разработки программного обеспечения и занимал несколько руководящих должностей в области разработки программного обеспечения и архитектуры программного обеспечения в платежной индустрии.

Джордж Бельсиан — старший архитектор облачных приложений в AWS. Он с энтузиазмом помогает клиентам ускорить модернизацию и внедрение облачных технологий. На своей нынешней должности Джордж работает вместе с командами клиентов над выработкой стратегии, архитектурой и разработкой инновационных масштабируемых решений.

LEAVE A REPLY

Please enter your comment!
Please enter your name here