В нашем недавнем бумага, опубликованном в журнале Nature Human Behaviour, мы предоставляем доказательство концепции того, что глубокое обучение с подкреплением (RL) можно использовать для поиска экономической политики, за которую люди будут голосовать большинством, в простой игре. Таким образом, в статье рассматривается ключевая проблема в исследованиях ИИ — как обучать системы ИИ, соответствующие человеческим ценностям.
Представьте себе, что группа людей решает объединить средства для инвестиций. Вложения окупаются, и получается прибыль. Как должны распределяться доходы? Одна из простых стратегий — разделить прибыль поровну между инвесторами. Но это может быть несправедливо, потому что некоторые люди внесли больше, чем другие. В качестве альтернативы мы могли бы выплатить каждому компенсацию пропорционально размеру его первоначальных инвестиций. Это звучит справедливо, но что, если бы у людей изначально был разный уровень активов? Если два человека вносят одинаковую сумму, но один отдает часть имеющихся у них средств, а другой отдает все, должны ли они получать одинаковую долю доходов?
Вопрос о том, как перераспределить ресурсы в нашей экономике и обществе, уже давно вызывает споры среди философов, экономистов и политологов. Здесь мы используем глубокое RL в качестве испытательного стенда для изучения способов решения этой проблемы.
Чтобы решить эту задачу, мы создали простую игру, в которой участвовали четыре игрока. В каждом экземпляре игры проводилось более 10 раундов. В каждом раунде каждому игроку выделялись средства, размер которых варьировался у разных игроков. Каждый игрок делал выбор: оставить эти средства себе или вложить их в общий пул. Вложенные средства гарантированно росли, но был риск, поскольку игроки не знали, как будут распределяться доходы. Вместо этого им сказали, что в первых 10 раундах решения о перераспределении принимал один судья (А), а в течение вторых 10 раундов его взял на себя другой судья (Б). В конце игры они проголосовали за А или за Б и сыграли еще одну игру с этим судьей. Людям, участвовавшим в игре, было разрешено оставить себе доходы от этой финальной игры, поэтому у них был стимул точно сообщать о своих предпочтениях.
На самом деле один из рефери представлял собой заранее определенную политику перераспределения, а другой был разработан нашим агентом глубокого RL. Чтобы обучить агента, мы сначала записали данные большого количества групп людей и научили нейронную сеть копировать то, как люди играют в игру. Эта смоделированная популяция может генерировать безграничные данные, что позволит нам использовать методы машинного обучения с интенсивным использованием данных для обучения агента RL максимизации голосов этих «виртуальных» игроков. Сделав это, мы затем наняли новых игроков-людей и сравнили разработанный ИИ механизм с хорошо известными базовыми показателями, такими как либертарианец политика, которая возвращает средства людям пропорционально их вкладам.
Когда мы изучили голоса этих новых игроков, мы обнаружили, что политика, разработанная глубоким RL, была более популярной, чем базовые показатели. Фактически, когда мы провели новый эксперимент, попросив пятого игрока-человека взять на себя роль рефери, и обучили его стараться максимизировать количество голосов, политика, реализованная этим «рефери-человеком», все еще была менее популярной, чем политика нашего агента.
Системы ИИ иногда критиковали за политику обучения, которая может быть несовместима с человеческими ценностями, и эта проблема «согласования ценностей» стала серьезной проблемой в исследованиях ИИ. Одним из достоинств нашего подхода является то, что ИИ учится напрямую максимизировать заявленные предпочтения (или голоса) группы людей. Такой подход может помочь гарантировать, что системы ИИ с меньшей вероятностью будут изучать политику, которая является небезопасной или несправедливой. Фактически, когда мы проанализировали политику, обнаруженную ИИ, она включила в себя смесь идей, которые ранее были предложены человеческими мыслителями и экспертами для решения проблемы перераспределения.
Во-первых, ИИ решил перераспределить средства между людьми пропорционально их родственник скорее, чем абсолютный вклад. Это означает, что при перераспределении средств агент учитывал первоначальные средства каждого игрока, а также его готовность внести свой вклад. Во-вторых, система ИИ особенно вознаграждала игроков, чей относительный вклад был более щедрым, возможно, побуждая других поступать так же. Важно отметить, что ИИ обнаружил эту политику только тогда, когда научился максимизировать человеческие голоса. Таким образом, этот метод гарантирует, что люди остаются «в курсе», а ИИ создает решения, совместимые с человеком.
Предлагая людям голосовать, мы использовали принцип мажоритарной демократии для решения того, чего хотят люди. Несмотря на свою широкую привлекательность, широко признано, что демократия сопровождается оговоркой о том, что предпочтения большинства учитываются по сравнению с предпочтениями меньшинства. В нашем исследовании мы добились того, чтобы – как и в большинстве обществ – это меньшинство состояло из более щедро обеспеченных игроков. Но необходима дополнительная работа, чтобы понять, как найти компромисс между относительными предпочтениями групп большинства и меньшинства путем разработки демократических систем, которые позволяют всем голосам быть услышанными.