Исследовать
Агенты лучше сотрудничают, общаясь и ведя переговоры, а санкции за невыполнение обещаний помогают им сохранять честность.
Успешная коммуникация и сотрудничество имели решающее значение для содействия прогрессу общества на протяжении всей истории. Закрытая среда настольных игр может служить песочницей для моделирования и исследования взаимодействия и общения – и мы можем многому научиться, играя в них. В нашей недавней статье опубликовано сегодня в Nature Communicationsмы показываем, как искусственные агенты могут использовать общение для лучшего сотрудничества, в настольной игре «Дипломатия», динамичной области исследований искусственного интеллекта (ИИ), известной своей направленностью на создание альянсов.
Дипломатия сложна, поскольку имеет простые правила, но высокую сложность из-за сильной взаимозависимости между игроками и огромного пространства действий. Чтобы помочь решить эту проблему, мы разработали алгоритмы переговоров, которые позволяют агентам общаться и согласовывать совместные планы, что позволяет им преодолевать агентов, лишенных этой способности.
Сотрудничество становится особенно сложной задачей, когда мы не можем рассчитывать на то, что наши коллеги сделают то, что они обещают. Мы используем «Дипломатию» как «песочницу», чтобы выяснить, что происходит, когда агенты могут отклониться от своих прошлых соглашений. Наше исследование иллюстрирует риски, которые возникают, когда сложные агенты способны искажать свои намерения или вводить других в заблуждение относительно своих планов на будущее, что приводит к еще одному важному вопросу: каковы условия, которые способствуют доверительному общению и командной работе?
Мы показываем, что стратегия наказания коллег, нарушающих контракты, резко снижает преимущества, которые они могут получить, отказавшись от своих обязательств, тем самым способствуя более честному общению.
Что такое дипломатия и почему она важна?
Такие игры, как шахматы, покер, Идтии много видеоигры всегда были благодатной почвой для исследований ИИ. Дипломатия — это игра для семи игроков, в которой нужно вести переговоры и формировать альянсы, разыгрываемая на старой карте Европы, разделенной на провинции, где каждый игрок контролирует несколько юнитов (правила дипломатии). В стандартной версии игры, называемой Пресс-дипломатия, каждый ход включает фазу переговоров, после которой все игроки одновременно раскрывают выбранные ими ходы.
Сердцем дипломатии является фаза переговоров, на которой игроки пытаются договориться о своих следующих действиях. Например, один отряд может поддерживать другой отряд, позволяя ему преодолевать сопротивление других отрядов, как показано здесь:
Вычислительные подходы к дипломатии исследуются с 1980-х годов, многие из которых были исследованы на более простой версии игры под названием «Дипломатия без прессы», где стратегическое общение между игроками не допускается. Исследователи также предложили компьютерные протоколы переговоровиногда называемый «Ограниченной прессой».
Что мы изучали?
Мы используем дипломатию как аналог реальных переговоров, предоставляя агентам ИИ методы координации своих действий. Мы принимаем наши необщительные дипломатические агенты и помогите им играть в «Дипломатию» с общением, предоставив им протокол для переговоров по контрактам для совместного плана действий. Мы называем этих дополненных агентов базовыми переговорщиками, и они связаны своими соглашениями.
Мы рассматриваем два протокола: протокол взаимного предложения и протокол предложения-выбора, подробно обсуждаемые в полный документ. Наши агенты применяют алгоритмы, которые определяют взаимовыгодные сделки, моделируя, как может разворачиваться игра в рамках различных контрактов. Мы используем Решение Нэша для переговоров от теория игры как принципиальную основу для выявления качественных соглашений. Игра может развиваться по-разному в зависимости от действий игроков, поэтому наши агенты используют симуляцию Монте-Карло, чтобы увидеть, что может произойти в следующий ход.
Наши эксперименты показывают, что наш механизм переговоров позволяет базовым переговорщикам значительно превосходить базовые необщающиеся агенты.
Агенты нарушают соглашения
В дипломатии соглашения, заключенные в ходе переговоров, не являются обязательными (коммуникация «дешевый разговор’‘). Но что происходит, когда агенты, согласившиеся на контракт в один ход, отклоняются от него в следующий? Во многих ситуациях реальной жизни люди соглашаются действовать определенным образом, но впоследствии не выполняют своих обязательств. Чтобы обеспечить сотрудничество между агентами ИИ или между агентами и людьми, мы должны изучить потенциальную ловушку, в которой агенты стратегически нарушают свои соглашения, и способы решения этой проблемы. Мы использовали «Дипломатию», чтобы изучить, как способность отказываться от своих обязательств подрывает доверие и сотрудничество, и определить условия, которые способствуют честному сотрудничеству.
Поэтому мы рассматриваем Агентов-Девиаторов, которые побеждают честных Переговорщиков Базового уровня, отклоняясь от согласованных контрактов. Простые Девиаторы просто «забывают», что согласились на контракт, и действуют, как хотят. Условные девиаторы более сложны и оптимизируют свои действия, предполагая, что другие игроки, принявшие контракт, будут действовать в соответствии с ним.
Мы показываем, что простые и условные девиаторы значительно превосходят базовые переговорщики, причём условные девиаторы — в подавляющем большинстве.
Призываем агентов быть честными
Далее мы решаем проблему отклонений с помощью защитных агентов, которые негативно реагируют на отклонения. Мы расследуем Бинарных Переговорщиков, которые просто обрывают связь с агентами, нарушающими с ними соглашение. Но избегание — это мягкая реакция, поэтому мы также развиваем агентов санкций, которые не воспринимают предательство легкомысленно, а вместо этого изменяют свои цели, чтобы активно пытаться снизить ценность уклониста — затаившего обиду противника! Мы показываем, что оба типа защитных агентов уменьшают преимущество отклонения, особенно агенты, налагающие санкции.
Наконец, мы представляем «обученных уклонистов», которые адаптируют и оптимизируют свое поведение против агентов санкций в течение нескольких игр, пытаясь сделать вышеупомянутую защиту менее эффективной. Обученный девиатор разорвет контракт только в том случае, если немедленная выгода от отклонения достаточно высока, а способность другого агента принять ответные меры достаточно низка. На практике Обученные Отклонители иногда разрывают контракты на поздних стадиях игры и при этом получают небольшое преимущество перед Агентами, налагающими санкции. Тем не менее, такие санкции заставляют «Ученый уклонист» выполнять более 99,7% своих контрактов.
Мы также изучаем возможную динамику обучения санкциям и отклонениям: что происходит, когда агенты, применяющие санкции, также могут отклоняться от контрактов, и потенциальный стимул прекратить санкции, когда такое поведение обходится дорого. Такие проблемы могут постепенно подорвать сотрудничество, поэтому могут потребоваться дополнительные механизмы, такие как повторение взаимодействия в нескольких играх или использование систем доверия и репутации.
Наша статья оставляет много вопросов открытыми для будущих исследований: возможно ли разработать более сложные протоколы, поощряющие еще более честное поведение? Как можно справиться с сочетанием коммуникационных технологий и несовершенной информации? Наконец, какие еще механизмы могли бы предотвратить нарушение соглашений? Создание справедливых, прозрачных и заслуживающих доверия систем искусственного интеллекта — чрезвычайно важная тема и ключевая часть миссии DeepMind. Изучение этих вопросов в таких «песочницах», как «Дипломатия», помогает нам лучше понять противоречия между сотрудничеством и конкуренцией, которые могут существовать в реальном мире. В конечном итоге мы считаем, что решение этих проблем позволит нам лучше понять, как разрабатывать системы ИИ в соответствии с ценностями и приоритетами общества.
Прочитайте нашу полную статью здесь.