Организации из разных отраслей хотят классифицировать и извлекать ценную информацию из больших объемов документов разных форматов. Обработка этих документов вручную для классификации и извлечения информации остается дорогостоящей, подверженной ошибкам и трудно масштабируемой. Достижения в области генеративного искусственного интеллекта (ИИ) привели к появлению решений интеллектуальной обработки документов (IDP), которые могут автоматизировать классификацию документов и создать экономически эффективный уровень классификации, способный обрабатывать разнообразные неструктурированные корпоративные документы.
Категоризация документов является важным первым шагом в системах ВПЛ. Это поможет вам определить следующий набор действий в зависимости от типа документа. Например, в процессе рассмотрения претензий группа по работе с кредиторской задолженностью получает счет-фактуру, тогда как отдел претензий управляет документами по контракту или политике. Традиционные механизмы правил или классификация на основе машинного обучения могут классифицировать документы, но часто достигают ограничения на типы форматов документов и поддержку динамического добавления новых классов документов. Дополнительную информацию см. в разделе Классификатор документов Amazon Comprehend добавляет поддержку макета для повышения точности.
В этом посте мы обсуждаем классификацию документов с использованием модели Amazon Titan Multimodal Embeddings для классификации любых типов документов без необходимости обучения.
Мультимодальные встраивания Amazon Titan
Amazon недавно представила мультимодальные встраивания Titan в Amazon Bedrock. Эта модель может создавать внедрения для изображений и текста, что позволяет создавать внедрения документов для использования в новых рабочих процессах классификации документов.
Он генерирует оптимизированные векторные представления документов, отсканированных как изображения. Кодируя как визуальные, так и текстовые компоненты в единые числовые векторы, инкапсулирующие семантическое значение, он обеспечивает быструю индексацию, мощный контекстный поиск и точную классификацию документов.
По мере появления новых шаблонов и типов документов в рабочих процессах бизнеса вы можете просто вызвать API Amazon Bedrock для их динамической векторизации и добавления в их системы IDP, чтобы быстро расширить возможности классификации документов.
Обзор решения
Давайте рассмотрим следующее решение для классификации документов с помощью модели Amazon Titan Multimodal Embeddings. Для достижения оптимальной производительности вам следует настроить решение в соответствии с вашим конкретным вариантом использования и существующей настройкой конвейера IDP.
Это решение классифицирует документы с помощью семантического поиска с векторным внедрением, сопоставляя входной документ с уже проиндексированной галереей документов. Мы используем следующие ключевые компоненты:
- Вложения – Встраивания – это численные представления объектов реального мира, которые системы машинного обучения (МО) и искусственного интеллекта используют для понимания сложных областей знаний, как это делают люди.
- Векторные базы данных – Векторные базы данных используются для хранения вложений. Базы данных векторов эффективно индексируют и организуют вложения, обеспечивая быстрый поиск похожих векторов на основе таких показателей расстояния, как евклидово расстояние или косинусное сходство.
- Семантический поиск – Семантический поиск работает, учитывая контекст и значение входного запроса, а также его релевантность искомому контенту. Векторные внедрения — эффективный способ уловить и сохранить контекстное значение текста и изображений. В нашем решении, когда приложение хочет выполнить семантический поиск, документ поиска сначала преобразуется во встраивание. Затем выполняется запрос к базе данных векторов с соответствующим содержимым для поиска наиболее похожих вложений.
В процессе маркировки примерный набор деловых документов, таких как счета-фактуры, банковские выписки или рецепты, преобразуется во внедренные элементы с использованием модели мультимодальных внедрений Amazon Titan и сохраняется в векторной базе данных с предварительно заданными этикетками. Модель мультимодального встраивания Amazon Titan была обучена с использованием алгоритма Евклида L2, поэтому для достижения наилучших результатов используемая векторная база данных должна поддерживать этот алгоритм.
На следующей диаграмме архитектуры показано, как можно использовать модель мультимодального внедрения Amazon Titan с документами в корзине Amazon Simple Storage Service (Amazon S3) для создания галереи изображений.
Рабочий процесс состоит из следующих этапов:
- Пользователь или приложение загружает образец изображения документа с метаданными классификации в галерею изображений документа. Префикс S3 или метаданные объекта S3 можно использовать для классификации изображений галереи.
- Событие уведомления об объекте Amazon S3 вызывает встроенную функцию AWS Lambda.
- Функция Lambda считывает изображение документа и преобразует его во встраивания, вызывая Amazon Bedrock и используя модель мультимодальных вложений Amazon Titan.
- Внедренные изображения вместе с классификацией документов хранятся в базе данных векторов.
Когда новый документ требует классификации, та же модель внедрения используется для преобразования документа запроса во внедрение. Затем в векторной базе данных выполняется поиск семантического сходства с использованием внедрения запроса. Метка, полученная по верхнему совпадению внедрения, будет меткой классификации для документа запроса.
На следующей диаграмме архитектуры показано, как использовать модель мультимодального внедрения Amazon Titan с документами в корзине S3 для классификации изображений.
Рабочий процесс состоит из следующих этапов:
- Документы, требующие классификации, загружаются во входную корзину S3.
- Функция классификации Lambda получает уведомление об объекте Amazon S3.
- Функция Lambda преобразует изображение во встраивание, вызывая API Amazon Bedrock.
- В базе данных векторов выполняется поиск соответствующего документа с использованием семантического поиска. Классификация соответствующего документа используется для классификации входного документа.
- Входной документ перемещается в целевой каталог или префикс S3 с использованием классификации, полученной в результате поиска в базе данных векторов.
Чтобы помочь вам протестировать решение с использованием собственных документов, мы создали пример блокнота Python Jupyter, который доступен на сайте GitHub.
Предварительные условия
Чтобы запустить блокнот, вам понадобится учетная запись AWS с соответствующими разрешениями AWS Identity and Access Management (IAM) для вызова Amazon Bedrock. Кроме того, на Доступ к модели странице консоли Amazon Bedrock убедитесь, что доступ предоставлен для модели Amazon Titan Multimodal Embeddings.
Выполнение
Выполнив следующие действия, замените каждый заполнитель, вводимый пользователем, своей собственной информацией:
- Создайте базу данных векторов. В этом решении мы используем базу данных FAISS в памяти, но вы можете использовать альтернативную базу данных векторов. Размер измерения Amazon Titan по умолчанию — 1024.
- После создания базы данных векторов переберите образцы документов, создайте вложения каждого из них и сохраните их в базе данных векторов.
- Проверьте свои документы. Замените папки в следующем коде собственными папками, содержащими известные типы документов:
- Используя библиотеку Boto3, позвоните в Amazon Bedrock. Переменная
inputImageB64
— это массив байтов в кодировке Base64, представляющий ваш документ. Ответ от Amazon Bedrock содержит вложения.
- Добавьте внедрения в базу данных векторов с идентификатором класса, представляющим известный тип документа:
- С помощью векторной базы данных, заполненной изображениями (представляющими нашу галерею), вы можете обнаружить сходство с новыми документами. Например, ниже приведен синтаксис, используемый для поиска. Значение k=1 указывает FAISS вернуть первое совпадение.
Кроме того, также возвращается евклидово расстояние L2 между имеющимся изображением и найденным изображением. Если изображение точно совпадает, это значение будет равно 0. Чем больше это значение, тем дальше друг от друга сходство изображений.
Дополнительные соображения
В этом разделе мы обсудим дополнительные соображения по эффективному использованию решения. Сюда входит конфиденциальность данных, безопасность, интеграция с существующими системами и смета затрат.
Конфиденциальность и безопасность данных
Модель общей ответственности AWS применяется к защите данных в Amazon Bedrock. Как описано в этой модели, AWS отвечает за защиту глобальной инфраструктуры, на которой работает все облако AWS. Клиенты несут ответственность за сохранение контроля над своим контентом, размещенным в этой инфраструктуре. Как клиент вы несете ответственность за настройку безопасности и задачи управления для сервисов AWS, которые вы используете.
Защита данных в Amazon Bedrock
Amazon Bedrock избегает использования подсказок и продолжений для клиентов для обучения моделей AWS или передачи их третьим лицам. Amazon Bedrock не хранит и не регистрирует данные клиентов в своих журналах обслуживания. Поставщики моделей не имеют доступа к журналам Amazon Bedrock или доступа к подсказкам и продолжениям для клиентов. В результате изображения, используемые для создания внедрений с помощью модели мультимодальных внедрений Amazon Titan, не сохраняются и не используются при обучении моделей AWS или внешнем распространении. Кроме того, из обучения модели исключаются другие данные об использовании, такие как метки времени и зарегистрированные идентификаторы учетных записей.
Интеграция с существующими системами
Модель Amazon Titan Multimodal Embeddings прошла обучение с использованием алгоритма Евклида L2, поэтому используемая векторная база данных должна быть совместима с этим алгоритмом.
Оценка стоимости
На момент написания этой статьи в соответствии с ценами Amazon Bedrock для модели мультимодальных встраиваний Amazon Titan ниже приведены ориентировочные затраты с использованием цен по требованию для этого решения:
- Единовременная стоимость индексации – 0,06 доллара США за один прогон индексации при условии, что галерея содержит 1000 изображений.
- Стоимость классификации – 6 долларов США за 100 000 входных изображений в месяц
Очистить
Чтобы избежать будущих расходов, удаляйте созданные вами ресурсы, например экземпляр блокнота Amazon SageMaker, когда они не используются.
Заключение
В этой статье мы рассмотрели, как можно использовать модель мультимодальных внедрений Amazon Titan для создания недорогого решения для классификации документов в рабочем процессе IDP. Мы продемонстрировали, как создать галерею изображений известных документов и выполнить поиск по сходству с новыми документами для их классификации. Мы также обсудили преимущества использования мультимодальных вложений изображений для классификации документов, включая их способность обрабатывать различные типы документов, масштабируемость и низкую задержку.
По мере появления новых шаблонов и типов документов в бизнес-процессах разработчики могут вызывать API Amazon Bedrock для их динамической векторизации и добавления в свои системы IDP, чтобы быстро расширить возможности классификации документов. Это создает недорогой, бесконечно масштабируемый уровень классификации, который может обрабатывать даже самые разнообразные и неструктурированные корпоративные документы.
В целом, эта статья представляет собой план создания недорогого решения для классификации документов в рабочем процессе IDP с использованием мультимодальных внедрений Amazon Titan.
В качестве следующих шагов ознакомьтесь с разделом «Что такое Amazon Bedrock», чтобы начать использовать сервис. Следите за Amazon Bedrock в блоге машинного обучения AWS, чтобы быть в курсе новых возможностей и вариантов использования Amazon Bedrock.
Об авторах
Сумит Бхати — старший менеджер по работе с клиентами в AWS, специализируется на ускорении перехода корпоративных клиентов в облако. Компания Sumit стремится помогать клиентам на всех этапах внедрения облачных технологий: от ускорения миграции до модернизации рабочих нагрузок и облегчения интеграции инновационных практик.
Дэвид Гирлинг — старший архитектор решений AI/ML с более чем 20-летним опытом проектирования, руководства и разработки корпоративных систем. Дэвид входит в команду специалистов, которая помогает клиентам учиться, внедрять инновации и использовать эти высокофункциональные сервисы со своими данными в своих сценариях использования.
Рави Авула — старший архитектор решений в AWS, специализирующийся на архитектуре предприятия. Рави имеет 20-летний опыт разработки программного обеспечения и занимал несколько руководящих должностей в области разработки программного обеспечения и архитектуры программного обеспечения в платежной индустрии.
Джордж Бельсиан — старший архитектор облачных приложений в AWS. Он с энтузиазмом помогает клиентам ускорить модернизацию и внедрение облачных технологий. На своей нынешней должности Джордж работает вместе с командами клиентов над выработкой стратегии, архитектурой и разработкой инновационных масштабируемых решений.