В наша недавняя статья мы исследуем, как многоагентное обучение с глубоким подкреплением может служить моделью сложных социальных взаимодействий, таких как формирование социальных норм. Этот новый класс моделей может открыть путь к созданию более богатых и детальных моделей мира.
Люди являются ультрасоциальный вид. По сравнению с другими млекопитающими мы получаем больше пользы от сотрудничества, но мы также в большей степени зависим от него и сталкиваемся с более серьезными проблемами сотрудничества. Сегодня человечество сталкивается с многочисленными проблемами сотрудничества, включая предотвращение конфликтов из-за ресурсов, обеспечение доступа каждого к чистому воздуху и питьевой воде, искоренение крайней бедности и борьбу с изменением климата. Многие из проблем сотрудничества, с которыми мы сталкиваемся, трудно решить, поскольку они включают в себя сложную сеть социальных и биофизических взаимодействий, называемую социально-экологические системы. Однако люди могут коллективно научиться преодолевать проблемы сотрудничества, с которыми мы сталкиваемся. Мы достигаем этого благодаря постоянно развивающейся культуре, включая нормы и институты, которые организуют наше взаимодействие с окружающей средой и друг с другом.
Однако нормы и институты иногда не могут решить проблемы сотрудничества. Например, люди могут чрезмерно эксплуатировать такие ресурсы, как леса и рыбные запасы, что приводит к их исчезновению. В таких случаях политики могут писать законы, изменяющие институциональные правила или разрабатывающие другие вмешательства, направленные на изменение норм в надежде добиться положительных изменений. Но политические меры не всегда работают так, как предполагалось. Это связано с тем, что реальные социально-экологические системы значительно более сложный чем модели, которые мы обычно используем, чтобы попытаться предсказать последствия политики-кандидата.
Модели, основанные на теории игр, часто применяются для изучения культурной эволюции. В большинстве этих моделей ключевые взаимодействия агентов друг с другом выражаются в «матрице выигрышей». В игре с двумя участниками и двумя действиями A и B матрица выигрышей определяет ценность четырех возможных исходов: (1) мы оба выбираем A, (2) мы оба выбираем B, (3) я выбираю A, а вы выбираете B и (4) я выбираю B, а вы выбираете A. Самый известный пример — «Дилемма заключенного», в которой действия интерпретируются как «сотрудничать» и «отступать». Рациональные агенты, действующие в соответствии со своими собственными близорукими интересами, обречены на отклонение от дилеммы узника, даже несмотря на то, что возможен лучший результат взаимного сотрудничества.
Теоретико-игровые модели получили очень широкое применение. Исследователи в самых разных областях использовали их для изучения широкого спектра различных явлений, включая экономику и эволюцию человеческой культуры. Однако теория игр — это не нейтральный инструмент, а скорее глубоко самоуверенный язык моделирования. Он накладывает строгое требование, согласно которому все в конечном итоге должно быть обналичено в терминах матрицы выигрышей (или эквивалентного представления). Это означает, что разработчик модели должен знать или быть готовым предположить все о том, как эффекты отдельных действий объединяются для создания стимулов. Иногда это уместно, и теоретико-игровой подход имел много заметных успехов, например, при моделировании поведение олигополистических фирм и международные отношения эпохи холодной войны. Однако основная слабость теории игр как языка моделирования проявляется в ситуациях, когда разработчик модели не до конца понимает, как выбор людей сочетается с получением выигрышей. К сожалению, это, как правило, относится к социально-экологическим системам, поскольку их социальные и экологические части взаимодействуют сложным образом, который мы не до конца понимаем.
Работа, которую мы представляем здесь, является одним из примеров исследовательской программы, которая пытается создать альтернативную структуру моделирования, отличную от теории игр, для использования при изучении социально-экологических систем. Формально наш подход можно рассматривать как разновидность агентное моделирование. Однако его отличительной особенностью является включение алгоритмических элементов искусственного интеллекта, особенно многоагентного глубокого обучения с подкреплением.
Основная идея этого подхода заключается в том, что каждая модель состоит из двух взаимосвязанных частей: (1) богатой, динамичной модели окружающей среды и (2) модели индивидуального принятия решений.
Первый принимает форму симулятора, разработанного исследователем: интерактивная программа, которая учитывает текущее состояние среды и действия агентов и выводит следующее состояние среды, а также наблюдения всех агентов и их мгновенное вознаграждение. Модель принятия индивидуальных решений также обусловлена состоянием окружающей среды. Это агент которая учится на своем прошлом опыте, действуя методом проб и ошибок. Агент взаимодействует с окружающей средой, получая наблюдения и выдавая действия. Каждый агент выбирает действия в соответствии со своей поведенческой политикой — сопоставлением наблюдений с действиями. Агенты учатся, изменяя свою политику, чтобы улучшить ее по любому желаемому аспекту, обычно для получения большего вознаграждения. Политика хранится в нейронной сети. Агенты учатся «с нуля», на собственном опыте, тому, как устроен мир и что они могут сделать, чтобы заработать больше вознаграждений. Они достигают этого, настраивая веса своих сетей таким образом, чтобы пиксели, которые они получают в качестве наблюдений, постепенно превращались в компетентные действия. Несколько обучающихся агентов могут находиться в одной и той же среде друг с другом. В этом случае агенты становятся взаимозависимыми, поскольку их действия влияют друг на друга.
Как и другие подходы к агентному моделированию, многоагентное глубокое обучение с подкреплением позволяет легко определять модели, которые пересекают уровни анализа, которые было бы трудно рассматривать с помощью теории игр. Например, действия могут быть гораздо ближе к двигательным примитивам низкого уровня (например, «идти вперед», «повернуть направо»), чем к стратегическим решениям высокого уровня теории игр (например, «сотрудничать»). Это важная функция, необходимая для захвата ситуаций, в которых агентам необходимо практиковаться, чтобы эффективно научиться действовать. реализовать свой стратегический выбор. Например, в одном изучатьАгенты научились сотрудничать, по очереди очищая реку. Это решение было возможно только потому, что среда имела пространственные и временные измерения, в которых агенты имели большую свободу в том, как они структурируют свое поведение по отношению друг к другу. Интересно, что хотя окружающая среда допускала множество различных решений (таких как территориальность), агенты пришли к тому же поочередному решению, что и игроки-люди.
В нашем последнем исследовании мы применили модель этого типа к открытому вопросу исследований культурной эволюции: как объяснить существование ложных и произвольных социальных норм, которые, как представляется, не имеют немедленных материальных последствий в случае их нарушения, помимо тех, которые навязываются обществом. Например, в некоторых обществах мужчины должны носить брюки, а не юбки; во многих есть слова или жесты рук, которыми не следует пользоваться в вежливом обществе; и в большинстве из них существуют правила относительно того, как причесывать волосы или что носить на голове. Мы называем эти социальные нормы «глупыми правилами». Важно отметить, что в нашей системе необходимо научиться обеспечивать соблюдение и соблюдение социальных норм. Наличие социальной среды, включающей «глупые правила», означает, что у агентов есть больше возможностей узнать о соблюдении норм в целом. Эта дополнительная практика позволяет им более эффективно обеспечивать соблюдение важных правил. В целом «глупое правило» может быть полезным для населения – и это неожиданный результат. Такой результат возможен только потому, что наша симуляция ориентирована на обучение: обеспечение соблюдения правил — это сложные навыки, для развития которых необходимо обучение.
Одна из причин, почему мы находим этот результат о глупых правилах таким интересным, заключается в том, что он демонстрирует полезность многоагентного обучения с глубоким подкреплением в моделировании культурной эволюции. Культура способствует успеху или провалу политических мер в отношении социально-экологических систем. Например, укрепление социальных норм в отношении вторичной переработки является частью решение некоторым экологическим проблемам. Следуя по этому пути, более богатое моделирование может привести к более глубокому пониманию того, как разрабатывать меры вмешательства в социально-экологические системы. Если моделирование станет достаточно реалистичным, возможно, даже станет возможным проверить воздействие вмешательств, например, направленных на разработать налоговый кодекс, который будет способствовать производительности и справедливости.
Этот подход предоставляет исследователям инструменты для определения детальных моделей интересующих их явлений. Конечно, как и у всех исследовательских методологий, у нее есть свои сильные и слабые стороны. Мы надеемся узнать больше о том, когда этот стиль моделирования может быть плодотворно применен в будущем. Хотя панацеи от моделирования не существует, мы считаем, что есть веские причины обратиться к многоагентному глубокому обучению с подкреплением при построении моделей социальных явлений, особенно когда они связаны с обучением.