Home Машинное обучение Как компания Logikcull компании Reveal использовала Amazon Comprehend для масштабного обнаружения и удаления личных данных из юридических документов | DeepTech

Как компания Logikcull компании Reveal использовала Amazon Comprehend для масштабного обнаружения и удаления личных данных из юридических документов | DeepTech

0
Как компания Logikcull компании Reveal использовала Amazon Comprehend для масштабного обнаружения и удаления личных данных из юридических документов
 | DeepTech

Сегодня личная информация (PII) присутствует повсюду. Личные данные содержатся в электронных письмах, сообщениях Slack, видео, PDF-файлах и т. д. Это относится к любым данным или информации, которые могут быть использованы для идентификации конкретного человека. PII является конфиденциальным по своей природе и включает в себя различные типы персональных данных, такие как имя, контактная информация, идентификационные номера, финансовая информация, медицинская информация, биометрические данные, дата рождения и т. д.

Поиск и редактирование личной информации имеет важное значение для защиты конфиденциальности, обеспечения безопасности данных, соблюдения законов и правил и поддержания доверия со стороны клиентов и заинтересованных сторон. Это важнейший компонент современных методов управления данными и кибербезопасности. Но поиск личных данных среди трясины электронных данных может стать проблемой для организации. Эти проблемы возникают из-за огромного объема и разнообразия данных, фрагментации данных, шифрования, совместного использования данных, динамического контента, ложных срабатываний и негативов, понимания контекста, юридических сложностей, ограничений ресурсов, меняющихся данных, пользовательского контента и адаптивных угроз. Однако неспособность точно обнаружить и отредактировать персональные данные может привести к серьезным последствиям для организаций. Последствия могут включать в себя юридические штрафы, судебные иски, ущерб репутации, затраты на утечку данных, расследования со стороны регулирующих органов, сбои в работе, подрыв доверия и санкции.

В правовой системе раскрытие — это юридический процесс, регулирующий право на получение и обязательство предоставить непривилегированный материал, имеющий отношение к претензиям или возражениям любой стороны в судебном процессе. Электронное обнаружение, также известное как eDiscovery, представляет собой электронный аспект идентификации, сбора и создания информации, хранящейся в электронном виде (ESI), в ответ на запрос на предоставление информации в судебном процессе или расследовании. В юридической сфере часто требуется идентифицировать, собирать и предоставлять ESI во время судебного процесса или расследования. Если организации имеют дело с раскрытием электронных данных в судебных процессах по поводу ответов на повестку в суд, они, вероятно, обеспокоены случайным раскрытием личных данных. Многие организации, включая правительственные учреждения, школьные округа и юристов, сталкиваются с проблемой точного обнаружения и редактирования личных данных в больших масштабах. Редактирование личных данных в соответствии с Законом о свободе информации и Законом о цифровых услугах, особенно если они являются частью правительственной группы, имеет решающее значение для защиты конфиденциальности личности, обеспечения соблюдения законов о защите данных, предотвращения кражи личных данных, а также поддержания доверия и прозрачности в правительстве и цифровых технологиях. услуги. Он обеспечивает баланс между прозрачностью и конфиденциальностью, одновременно снижая юридические риски и риски безопасности.

Организации могут искать PII, используя такие методы, как поиск по ключевым словам, сопоставление с образцом, инструменты предотвращения потери данных, машинное обучение (ML), анализ метаданных, программное обеспечение для классификации данных, оптическое распознавание символов (OCR), снятие отпечатков пальцев документов и шифрование.

Теперь это часть платформы eDiscovery на базе искусственного интеллекта Reveal. Логиккулл — это решение самообслуживания, которое позволяет юристам обрабатывать, просматривать, помечать и создавать электронные документы в рамках судебного процесса или расследования. Это уникальное предложение помогает адвокатам получать ценную информацию по рассматриваемому делу, одновременно сокращая расходы, ускоряя принятие решений и снижая риски.

В этом посте эксперты Reveal демонстрируют, как они использовали Amazon Comprehend в своем конвейере обработки документов для обнаружения и редактирования отдельных частей личной информации. Amazon Comprehend — это полностью управляемый и постоянно обучаемый сервис обработки естественного языка (NLP), который может извлекать информацию о содержании документа или текста. Вы можете использовать возможности Amazon Comprehend ML для обнаружения и редактирования личных данных в электронных письмах клиентов, обращениях в службу поддержки, обзорах продуктов, социальных сетях и т. д.

Обзор решения

Главной целью команды инженеров является обнаружение и редактирование личных данных в миллионах юридических документов для своих клиентов. Используя решение Reveal Logikcull, команда инженеров реализовала два процесса, а именно обнаружение личных данных на первом этапе и обнаружение и редактирование личных данных на втором этапе. Это двухпроходное решение стало возможным благодаря использованию API-интерфейсов containsPiiEntities и DetectPiiEntities.

Обнаружение личных данных с первого прохода

Целью первого обнаружения PII является поиск документов, которые могут содержать PII.

  1. Пользователи загружают файлы, для которых они хотели бы выполнить обнаружение и редактирование PII, через общедоступный веб-сайт Logikcull в папку проекта. Эти файлы могут быть в виде офисных документов, PDF-файлов, электронных писем или ZIP-файлов, содержащих все поддерживаемые типы файлов.
  2. Logikcull надежно хранит эти папки проектов в корзине Amazon Simple Storage Service (Amazon S3). Затем файлы проходят через конвейер массово-параллельной обработки Logikcull, размещенный в облаке Amazon Elastic Compute Cloud (Amazon EC2), который обрабатывает файлы, извлекает метаданные и генерирует артефакты в текстовом формате для проверки данных. Конвейер обработки Logikcull поддерживает извлечение текста из самых разных форм и файлов, включая аудио- и видеофайлы.
  3. После того как файлы станут доступны в текстовом формате, Logikcull передает входной текст вместе с языковой моделью (английской) через Amazon Comprehend, выполняя вызов API containsPiiEntities. Серверы конвейера обработки, размещенные на Amazon EC2, позволяют Amazon Comprehend ContainsPiiEntities Вызов API путем передачи параметров запроса в виде текста и языкового кода. ContainsPiiEntities Вызов API анализирует входной текст на наличие личных данных и возвращает метки идентифицированных типов объектов личных данных, таких как имя, адрес, номер банковского счета или номер телефона. Ответ API также включает показатель достоверности, который указывает уровень уверенности, присвоенный Amazon Comprehend точности обнаружения. Показатель уверенности имеет значение от 0 до 1, где 1 означает 100-процентную уверенность. Logikcull использует этот показатель достоверности, чтобы присвоить документам тег PII Detected. Logikcull присваивает этот тег только документам, показатель достоверности которых превышает 0,75.
  4. Документы с тегами PII Detected передаются в кластер поискового индекса Logikcull, чтобы их пользователи могли быстро идентифицировать документы, содержащие объекты PII.

Обнаружение и редактирование личных данных на втором этапе

Процесс первого прохода обнаружения PII сужает объем набора данных, определяя, какие документы содержат информацию PII. Это ускоряет процесс обнаружения личных данных, а также снижает общую стоимость. Цель обнаружения PII на втором проходе — идентифицировать отдельные экземпляры PII и удалить их из помеченных документов на первом проходе.

  1. Пользователи ищут документы на веб-сайте Logikcull, содержащие персональные данные, используя функцию расширенных поисковых фильтров Logikcull.
  2. Запрос обрабатывается серверами приложений Logikcull, размещенными на Amazon EC2, и серверы взаимодействуют с кластером поискового индекса для поиска документов.
  3. Серверы приложений Logikcull могут идентифицировать отдельные экземпляры PII, выполняя вызов API DetectPiiEntities. Серверы выполняют вызов API, передавая текст и язык входных документов. DetectPiiEntities Действие API проверяет входной текст на наличие объектов, содержащих личные данные. Для каждого объекта в ответе указывается тип объекта, где начинается и заканчивается текст объекта, а также уровень уверенности Amazon Comprehend в его обнаружении.
  4. Затем пользователи выбирают конкретные объекты, которые они хотят отредактировать, используя веб-интерфейс Logikcull. Сервер приложений отправляет эти запросы в конвейер обработки Logikcull. Ниже приведен снимок экрана PDF-файла, загруженного в приложение Logikcull. На снимке экрана ниже вы можете видеть, что выделены различные объекты PII, такие как имя, адрес, номер телефона, адрес электронной почты и т. д.

  1. Редактирование PII безопасно применяется внутри конвейера обработки Logikcull с использованием специальной бизнес-логики. На следующем снимке экрана вы можете видеть, что пользователи могут выбрать либо определенные типы объектов PII, либо все типы объектов PII, которые они хотят отредактировать, а затем, нажав одну кнопку, отредактировать всю информацию PII.

Полученные результаты

Logikcull, технология Reveal, в настоящее время обрабатывает более 20 миллионов документов каждую неделю и смогла сузить область обнаружения с помощью ContainsPiiEntities API и отображать отдельные экземпляры объектов PII своим клиентам с помощью DetectPiiEntities API.

«Благодаря Amazon Comprehend компания Logikcull смогла быстро развернуть мощные возможности НЛП за долю времени, которое потребовалось бы для создания специального решения».

– Стив Ньюхаус, вице-президент по продуктам Logikcull.

Заключение

Amazon Comprehend позволяет технологии Reveal Logikcull выполнять обнаружение личных данных в больших масштабах при относительно низких затратах с использованием Amazon Comprehend. ContainsPiiEntities API используется для первоначального сканирования миллионов документов. DetectPiiEntities API используется для детального анализа тысяч документов и идентификации отдельных частей личных данных в их документах.

Ознакомьтесь со всеми функциями Amazon Comprehend. Попробуйте эти функции и отправьте нам отзыв либо через форум AWS для Amazon Comprehend, либо через ваши обычные контакты службы поддержки AWS.


Об авторах

Аман Тивари — архитектор общих решений, работающий в отделе международных коммерческих продаж в AWS. Он работает с клиентами в сегменте цифрового бизнеса и помогает им разрабатывать инновационные, отказоустойчивые и экономичные решения с использованием сервисов AWS. Он получил степень магистра в области телекоммуникационных сетей Северо-Восточного университета. Вне работы он любит играть в большой теннис и читать книги.

Джефф Ньюберн — старший менеджер по разработке программного обеспечения, возглавляющий команду разработки данных в Logikcull – A Reveal Technology. Он курирует инициативы компании в области данных, включая хранилища данных, визуализацию, аналитику и машинное обучение. Имея опыт разработки и управления в таких областях, как совместное использование поездок и системы обработки данных, ему нравится руководить командами блестящих инженеров и создавать интересные продукты.

Сорен Блонд Даугард — штатный инженер в команде разработки данных в Logikcull – A Reveal Technology. Он внедряет масштабируемые решения искусственного интеллекта и машинного обучения в продукт Logikcull, позволяя нашим клиентам выполнять свою работу более эффективно и с большей точностью. Его опыт охватывает конвейеры данных, веб-системы и системы машинного обучения.

Кевин Лафкин является старшим инженером-программистом в команде поисковых инженеров компании Logikcull – A Reveal Technology, где он занимается разработкой функций, связанных с взаимодействием с клиентами и поиском. Его обширный опыт в области UI/UX дополняется опытом полнофункциональной веб-разработки с упором на воплощение в жизнь концепций продуктов.

LEAVE A REPLY

Please enter your comment!
Please enter your name here