Как мы можем встроить человеческие ценности в ИИ?

Технологии

Как мы можем встроить человеческие ценности в ИИ? | DeepTech

DEEPTECH

July 14, 2023

Опираясь на философию, чтобы определить справедливые принципы этического ИИ

По мере того, как искусственный интеллект (ИИ) становится все более мощным и все более глубоко интегрируется в нашу жизнь, вопросы о том, как он используется и развертывается, становятся все более важными. Какие ценности определяют ИИ? Чьи это ценности? И как они выбираются?

Эти вопросы проливают свет на роль, которую играют принципы — основополагающие ценности, определяющие большие и малые решения в области ИИ. Для людей принципы помогают формировать образ жизни и наше понимание правильного и неправильного. Что касается ИИ, они определяют его подход к ряду решений, связанных с компромиссами, такими как выбор между приоритетом производительности или помощью тем, кто больше всего в этом нуждается.

В статья опубликована сегодня в Труды Национальной академии наук, мы черпаем вдохновение из философии, чтобы найти способы лучше определить принципы, определяющие поведение ИИ. В частности, мы исследуем, как концепция, известная как «завеса невежества» — мысленный эксперимент, призванный помочь определить справедливые принципы для групповых решений — может быть применена к ИИ.

В наших экспериментах мы обнаружили, что такой подход поощрял людей принимать решения, основанные на том, что они считали справедливым, независимо от того, приносило ли это им непосредственную пользу. Мы также обнаружили, что участники с большей вероятностью выбирали ИИ, который помогал тем, кто находился в наиболее неблагоприятном положении, когда они рассуждали за завесой невежества. Эти идеи могут помочь исследователям и политикам выбрать принципы для помощника ИИ таким образом, чтобы это было справедливо для всех сторон.

Завеса неведения (справа) — метод достижения консенсуса по решению при наличии в группе различных мнений (слева).

Инструмент для более справедливого принятия решений

Ключевой целью исследователей ИИ было привести системы ИИ в соответствие с человеческими ценностями. Однако нет единого мнения о едином наборе человеческих ценностей или предпочтений для управления ИИ — мы живем в мире, где люди имеют разное происхождение, ресурсы и убеждения. Как нам выбрать принципы для этой технологии, учитывая столь разные мнения?

Хотя эта проблема возникла для ИИ за последнее десятилетие, общий вопрос о том, как принимать справедливые решения, имеет давнюю философскую родословную. В 1970-х годах политический философ Джон Ролз предложил концепцию завесы невежества как решение этой проблемы. Ролз утверждал, что, когда люди выбирают принципы справедливости для общества, они должны представлять, что делают это, не зная своего особого положения в этом обществе, включая, например, свой социальный статус или уровень благосостояния. Без этой информации люди не могут принимать решения, исходя из личных интересов, и вместо этого должны выбирать принципы, справедливые для всех участников.

В качестве примера подумайте о том, чтобы попросить друга разрезать торт на вечеринке по случаю вашего дня рождения. Один из способов гарантировать, что размеры слайсов имеют справедливые пропорции, — не говорить им, какой слайс будет их. Этот подход к сокрытию информации кажется простым, но он имеет широкое применение в различных областях, от психологии до политики, помогая людям размышлять над своими решениями с менее корыстной точки зрения. Он использовался как метод достижения группового согласия по спорным вопросам, начиная от вынесения приговора и заканчивая налогообложением.

Основываясь на этом фундаменте, предыдущее исследование DeepMind предположило, что беспристрастный характер завесы невежества может способствовать справедливости в процессе согласования систем ИИ с человеческими ценностями. Мы разработали серию экспериментов, чтобы проверить влияние завесы невежества на принципы, которые люди выбирают для управления системой ИИ.

Максимизировать производительность или помочь самым обездоленным?

В онлайн-игре «сбор урожая» мы попросили участников сыграть в групповую игру с тремя компьютерными игроками, где цель каждого игрока состояла в том, чтобы собирать древесину, вырубая деревья на разных территориях. В каждой группе некоторым игрокам повезло, и они оказались в выигрышной позиции: деревья густо заселили их поле, что позволило эффективно собирать древесину. Другие члены группы оказались в невыгодном положении: их поля были редкими, требовалось больше усилий для сбора деревьев.

Каждой группе помогала одна система искусственного интеллекта, которая могла проводить время, помогая отдельным членам группы собирать деревья. Мы попросили участников выбрать один из двух принципов поведения помощника ИИ. В соответствии с «принципом максимизации» помощник ИИ будет стремиться увеличить урожайность группы, сосредоточив внимание преимущественно на более плотных полях. В соответствии с «принципом расстановки приоритетов» помощник ИИ сосредоточится на помощи обездоленным членам группы.

Иллюстрация «игры в сбор урожая», в которой игроки (показаны красным) либо занимают плотное поле, которое легче собирать (два верхних квадранта), либо редкое поле, которое требует больше усилий для сбора деревьев.

Мы поместили половину участников за завесу невежества: они столкнулись с выбором между различными этическими принципами, не зная, какая область будет их областью, поэтому они не знали, насколько они в выигрыше или в невыгодном положении. Остальные участники делали выбор, зная, лучше им или хуже.

Поощрение справедливости в принятии решений

Мы обнаружили, что если участники не знали своей позиции, они неизменно предпочитали принцип расстановки приоритетов, когда помощник ИИ помогал членам группы, находящимся в неблагоприятном положении. Этот паттерн последовательно проявлялся во всех пяти различных вариантах игры и пересекал социальные и политические границы: участники продемонстрировали тенденцию выбирать принцип приоритета независимо от их склонности к риску или их политической ориентации. Напротив, участники, которые знали свою собственную позицию, с большей вероятностью выбирали тот принцип, который принес бы им наибольшую пользу, будь то принцип расстановки приоритетов или принцип максимизации.

Диаграмма, показывающая влияние завесы невежества на вероятность выбора принципа расстановки приоритетов, где ИИ-помощник помогал бы тем, кто в худшем положении. Участники, которые не знали своей позиции, с гораздо большей вероятностью поддержали этот принцип управления поведением ИИ.

Когда мы спросили участников, почему они сделали свой выбор, те, кто не знал своей позиции, были особенно склонны выражать беспокойство по поводу справедливости. Они часто объясняли, что для системы ИИ было правильным сосредоточиться на помощи людям, которым в группе было хуже. Напротив, участники, которые знали свою позицию, гораздо чаще обсуждали свой выбор с точки зрения личной выгоды.

Наконец, после того, как игра по сбору урожая была завершена, мы предложили участникам гипотетическую ситуацию: если бы они снова играли в игру, на этот раз зная, что они будут в другом поле, выбрали бы они тот же принцип, что и в первый раз? ? Нас особенно интересовали люди, которые ранее получали непосредственную выгоду от своего выбора, но не получат выгоды от такого же выбора в новой игре.

Мы обнаружили, что люди, которые раньше делали выбор, не зная своей позиции, с большей вероятностью продолжали поддерживать свой принцип, даже если знали, что он больше не будет благоприятствовать им в новой области. Это служит дополнительным свидетельством того, что завеса невежества способствует справедливости в принятии решений участниками, приводя их к принципам, которых они были готовы придерживаться, даже когда они больше не получали от них прямой выгоды.

Более справедливые принципы для ИИ

Технология искусственного интеллекта уже оказывает глубокое влияние на нашу жизнь. Принципы, которыми руководствуется ИИ, определяют его влияние и то, как будут распределяться эти потенциальные преимущества.

В нашем исследовании рассматривался случай, когда влияние различных принципов было относительно очевидным. Так будет не всегда: ИИ развернут в целом ряде областей, которые часто полагаются на большое количество правил, которыми они руководствуются, потенциально со сложными побочными эффектами. Тем не менее, завеса невежества все еще может потенциально влиять на выбор принципа, помогая гарантировать, что правила, которые мы выбираем, справедливы для всех сторон.

Чтобы убедиться, что мы создаем системы ИИ, которые приносят пользу всем, нам нужны обширные исследования с широким спектром входных данных, подходов и отзывов из разных дисциплин и общества. Завеса невежества может послужить отправной точкой для выбора принципов, на которые следует ориентировать ИИ. Он был эффективно развернут в других областях для выявить более беспристрастные предпочтения. Мы надеемся, что при дальнейшем изучении и внимании к контексту это может помочь выполнять ту же роль системам ИИ, которые создаются и развертываются в обществе сегодня и в будущем.

‍

Узнайте больше о подходе DeepMind к безопасности и этике.

Опираясь на философию, чтобы определить справедливые принципы этического ИИ

Инструмент для более справедливого принятия решений

Максимизировать производительность или помочь самым обездоленным?

Поощрение справедливости в принятии решений

Более справедливые принципы для ИИ

LEAVE A REPLY Cancel reply