Лучшие практики по обогащению данных

Технологии

Лучшие практики по обогащению данных | DeepTech

DEEPTECH

October 27, 2023

Построение ответственного подхода к сбору данных с Партнерством по ИИ

Наша цель в DeepMind — убедиться, что все, что мы делаем, соответствует самым высоким стандартам безопасности и этики, а также нашим принципам работы. Одним из наиболее важных моментов, с которых все начинается, является то, как мы собираем наши данные. За последние 12 месяцев мы сотрудничали с Партнерство в сфере ИИ (PAI) тщательно рассмотреть эти проблемы и совместно разработать стандартизированные передовые методы и процессы для ответственного сбора данных о людях.

Сбор данных о людях

Более трех лет назад мы создали наш Комитет по этике поведенческих исследований человека (HuBREC), группу управления, созданную по образцу академических институциональных наблюдательных советов (IRB), таких как те, которые существуют в больницах и университетах, с целью защиты достоинства, прав и благополучие людей, участвующих в наших исследованиях. Этот комитет курирует поведенческие исследования, включающие эксперименты с людьми в качестве объекта исследования, например, изучение того, как люди взаимодействуют с системами искусственного интеллекта (ИИ) в процессе принятия решений.

Наряду с проектами, включающими поведенческие исследования, сообщество ИИ все активнее участвует в усилиях, связанных с «обогащением данных» — задачами, выполняемыми людьми для обучения и проверки моделей машинного обучения, таких как маркировка данных и оценка моделей. В то время как поведенческие исследования часто полагаются на добровольных участников, которые являются объектом исследования, обогащение данных предполагает, что людям платят за выполнение задач, которые улучшают модели ИИ.

Задачи такого типа обычно выполняются на краудсорсинговых платформах, часто поднимая этические вопросы, связанные с заработной платой, благосостоянием и равенством работников, которым может не хватать необходимых указаний или систем управления для обеспечения соблюдения достаточных стандартов. По мере того, как исследовательские лаборатории ускоряют разработку все более сложных моделей, использование методов обогащения данных, вероятно, будет расти, а вместе с этим – потребность в более строгом руководстве.

В рамках наших принципов работы мы обязуемся поддерживать и способствовать внедрению лучших практик в области безопасности и этики искусственного интеллекта, включая справедливость и конфиденциальность, чтобы избежать непредвиденных результатов, которые создают риски причинения вреда.

Лучшие практики

Следуя PAI недавний официальный документ по ответственному поиску услуг по обогащению данных, мы сотрудничали в разработке наших методов и процессов для обогащения данных. Это включало создание пяти шагов, которым могут следовать специалисты по искусственному интеллекту для улучшения условий труда людей, участвующих в задачах по обогащению данных (более подробную информацию можно найти на странице Рекомендации PAI по обогащению данных):

Выберите подходящую модель оплаты и убедитесь, что все работники получают зарплату выше местного прожиточного минимума.
Разработайте и запустите пилотный проект перед запуском проекта по обогащению данных.
Определите подходящих работников для выполнения желаемой задачи.
Предоставьте работникам проверенные инструкции и/или учебные материалы.
Установите четкие и регулярные механизмы общения с работниками.

Вместе мы создали необходимые политики и ресурсы, собрав в ходе этого процесса многочисленные отзывы от наших внутренних групп по правовым вопросам, данным, безопасности, этике и исследованиям, прежде чем протестировать их на небольшом количестве проектов по сбору данных, а затем распространить их на более широкая организация.

Эти документы дают больше ясности относительно того, как лучше всего ставить задачи по обогащению данных в DeepMind, повышая уверенность наших исследователей в планировании и проведении исследований. Это не только повысило эффективность наших процессов утверждения и запуска, но, что немаловажно, повысило опыт людей, участвующих в задачах по обогащению данных.

Дополнительная информация об ответственных методах обогащения данных и о том, как мы внедрили их в наши существующие процессы, объясняется в недавнем тематическом исследовании PAI. Внедрение ответственных методов обогащения данных в компании-разработчике искусственного интеллекта: пример DeepMind. PAI также предоставляет полезные ресурсы и вспомогательные материалы для практиков искусственного интеллекта и организаций, стремящихся разработать аналогичные процессы.

С нетерпением жду

Хотя эти лучшие практики лежат в основе нашей работы, мы не должны полагаться только на них, чтобы гарантировать, что наши проекты соответствуют самым высоким стандартам благополучия и безопасности участников или работников в исследованиях. Каждый проект в DeepMind уникален, поэтому у нас есть специальный процесс проверки человеческих данных, который позволяет нам постоянно взаимодействовать с исследовательскими группами для выявления и снижения рисков в каждом конкретном случае.

Эта работа призвана служить ресурсом для других организаций, заинтересованных в совершенствовании своих методов поиска источников обогащения данных, и мы надеемся, что это приведет к межсекторальным обсуждениям, которые могут способствовать дальнейшей разработке этих руководств и ресурсов для команд и партнеров. Благодаря этому сотрудничеству мы также надеемся спровоцировать более широкую дискуссию о том, как сообщество ИИ может продолжать разрабатывать нормы ответственного сбора данных и коллективно создавать более совершенные отраслевые стандарты.

Узнайте больше о наших принципах работы.

Сбор данных о людях

Лучшие практики

С нетерпением жду

LEAVE A REPLY Cancel reply