Эмерджентное бартерное поведение в многоагентном обучении с подкреплением

Технологии

Эмерджентное бартерное поведение в многоагентном обучении с подкреплением | DeepTech

DEEPTECH

October 29, 2023

В наша недавняя статьямы исследуем, как популяции агентов глубокого обучения с подкреплением (глубокого RL) могут изучать микроэкономическое поведение, такое как производство, потребление и торговля товарами. Мы обнаружили, что искусственные агенты учатся принимать экономически рациональные решения о производстве, потреблении и ценах и соответствующим образом реагировать на изменения спроса и предложения. Население склоняется к местным ценам, которые отражают близлежащее изобилие ресурсов, и некоторые агенты учатся перевозить товары между этими областями, чтобы «покупать дешево и продавать дорого». Эта работа продвигает более широкую программу исследований мультиагентного обучения с подкреплением, предлагая агентам новые социальные проблемы, которые они должны научиться решать.

Поскольку цель исследований мультиагентного обучения с подкреплением состоит в том, чтобы в конечном итоге создать агентов, которые будут работать во всем диапазоне и сложности человеческого социального интеллекта, набор рассмотренных до сих пор областей был прискорбно неполным. Ему все еще не хватает важнейших областей, в которых человеческий интеллект превосходит других, и люди тратят значительное количество времени и энергии. Предмет экономики является одной из таких областей. Наша цель в этой работе — создать среду, основанную на темах торговли и переговоров, для использования исследователями в области многоагентного обучения с подкреплением.

Экономика использует агентные модели для моделирования поведения экономики. Эти агентные модели часто основываются на экономических предположениях о том, как агенты должны действовать. В этой работе мы представляем мультиагентный смоделированный мир, в котором агенты могут изучать экономическое поведение с нуля способами, знакомыми любому студенту, изучающему микроэкономику 101: решения о производстве, потреблении и ценах. Но наши агенты также должны делать и другие выборы, вытекающие из более физически воплощенного образа мышления. Они должны ориентироваться в физической среде, находить деревья, чтобы собирать фрукты, и партнеров, с которыми можно ими торговать. Последние достижения в области методов глубокого RL теперь позволяют создавать агентов, которые могут изучать такое поведение самостоятельно, не требуя от программиста кодирования знаний предметной области.

Наша окружающая среда, называемая Фруктовый рынок, — это многопользовательская среда, в которой агенты производят и потребляют два типа фруктов: яблоки и бананы. Каждый агент умеет производить один вид фруктов, но отдает предпочтение другому: если агенты смогут научиться бартеру и обмениваться товарами, обе стороны будут в выигрыше.

В наших экспериментах мы показываем, что нынешние агенты глубокого RL могут научиться торговать, и их поведение в ответ на изменения спроса и предложения соответствует тому, что предсказывает микроэкономическая теория. Затем мы опираемся на эту работу, чтобы представить сценарии, которые было бы очень сложно решить с помощью аналитических моделей, но которые понятны нашим агентам глубокого RL. Например, в средах, где каждый вид фруктов растет в разных районах, мы наблюдаем появление различных ценовых регионов, связанных с местным изобилием фруктов, а также последующее обучение арбитражному поведению некоторыми агентами, которые начинают специализироваться на перевозка фруктов между этими регионами.

В области агентной вычислительной экономики аналогичные модели используются для экономических исследований. В этой работе мы также демонстрируем, что современные методы глубокого RL могут гибко научиться действовать в этих средах на основе собственного опыта без необходимости использования встроенных экономических знаний. Это подчеркивает недавний прогресс сообщества обучения с подкреплением в нескольких областях. -агентное RL и глубокое RL, а также демонстрирует потенциал мультиагентных методов как инструментов для продвижения исследований в области моделируемой экономики.

Как путь к общему искусственному интеллекту (AGI), исследования многоагентного обучения с подкреплением должны охватывать все критические области социального интеллекта. Однако до сих пор она не включала в себя традиционные экономические явления, такие как торговля, торг, специализация, потребление и производство. Данная статья восполняет этот пробел и предоставляет платформу для дальнейших исследований. Чтобы помочь будущим исследованиям в этой области, среда Fruit Market будет включена в следующий выпуск Плавильный котел набор сред.

LEAVE A REPLY Cancel reply