Home Технологии ИИ для настольной игры Дипломатия | DeepTech

ИИ для настольной игры Дипломатия | DeepTech

0
ИИ для настольной игры Дипломатия
 | DeepTech

Агенты лучше сотрудничают, общаясь и ведя переговоры, а санкции за невыполненные обещания помогают им оставаться честными.

Успешное общение и сотрудничество имели решающее значение для развития общества на протяжении всей истории. Закрытая среда настольных игр может служить песочницей для моделирования и исследования взаимодействия и общения, и мы можем многому научиться, играя в них. В нашей недавней статье опубликовано сегодня в Nature Communicationsмы показываем, как искусственные агенты могут использовать общение для лучшего сотрудничества в настольной игре «Дипломатия» — динамичной области исследований искусственного интеллекта (ИИ), известной своей направленностью на создание альянсов.

Дипломатия сложна, так как имеет простые правила, но высокую возникающую сложность из-за сильной взаимозависимости между игроками и огромного пространства для действий. Чтобы помочь решить эту проблему, мы разработали алгоритмы переговоров, которые позволяют агентам общаться и согласовывать совместные планы, позволяя им преодолевать агентов, лишенных этой способности.

Сотрудничество становится особенно сложным, когда мы не можем полагаться на то, что наши коллеги сделают то, что они обещают. Мы используем Дипломатию в качестве песочницы, чтобы исследовать, что происходит, когда агенты могут отклоняться от своих прошлых соглашений. Наше исследование иллюстрирует риски, возникающие, когда сложные агенты могут искажать свои намерения или вводить других в заблуждение относительно своих планов на будущее, что приводит к еще одному важному вопросу: каковы условия, способствующие надежному общению и командной работе?

Мы показываем, что стратегия наказания сверстников, которые нарушают контракты, резко снижает преимущества, которые они могут получить, отказываясь от своих обязательств, тем самым способствуя более честному общению.

Что такое дипломатия и почему она важна?

Такие игры, как шахматы, покер, Идтии много видеоигры всегда были благодатной почвой для исследований ИИ. Дипломатия это игра для семи игроков о переговорах и создании альянса, играемая на старой карте Европы, разделенной на провинции, где каждый игрок контролирует несколько юнитов (правила дипломатии). В стандартной версии игры под названием Press Diplomacy каждый ход включает фазу переговоров, после которой все игроки одновременно раскрывают выбранные ими ходы.

Сердце Дипломатии — фаза переговоров, когда игроки пытаются договориться о своих следующих шагах. Например, один юнит может поддерживать другой юнит, позволяя ему преодолевать сопротивление других юнитов, как показано здесь:

Два сценария движения.
Левый: два отряда (красный отряд в Бургундии и синий отряд в Гаскони) пытаются двинуться в Париж. Поскольку отряды имеют одинаковую силу, ни один из них не преуспевает.
Верно: отряд красных в Пикардии поддерживает отряд красных в Бургундии, подавляя отряд синих и позволяя отряду красных войти в Бургундию.

Вычислительные подходы к дипломатии исследовались с 1980-х годов, многие из которых были исследованы в более простой версии игры под названием No-Press Diplomacy, где стратегическое общение между игроками запрещено. Исследователи также предложили удобные для компьютера протоколы переговоровиногда называемый «Restricted-Press».

Что мы изучали?

Мы используем Дипломатию как аналог переговоров в реальном мире, предоставляя агентам ИИ методы для координации своих действий. Мы берем наших некоммуникабельных агентов Дипломатии и усиливаем их, чтобы они играли в Дипломатию с общением, давая им протокол для переговоров по контрактам для совместного плана действий. Мы называем этих дополненных агентов базовыми переговорщиками, и они связаны своими соглашениями.

Дипломатические контракты.
Левый: ограничение, позволяющее красному игроку совершать только определенные действия (им не разрешается перемещаться из Рура в Бургундию, и они должны двигаться из Пьемонта в Марсель).
Верно: Контракт между красными и зелеными игроками, который накладывает ограничения на обе стороны.

Мы рассматриваем два протокола: протокол взаимного предложения и протокол предложения-выбора, которые подробно обсуждаются в полная статья. Наши агенты применяют алгоритмы, которые выявляют взаимовыгодные сделки, моделируя, как может развиваться игра при различных контрактах. Мы используем Решение Нэша для переговоров от теория игры в качестве принципиальной основы для определения качественных соглашений. Игра может развиваться по-разному в зависимости от действий игроков, поэтому наши агенты используют симуляции Монте-Карло, чтобы увидеть, что может произойти на следующем ходу.

Моделирование следующих состояний с учетом согласованного контракта. Слева: текущее состояние части доски, включая контракт, согласованный между красными и зелеными игроками. Справа: несколько возможных следующих состояний.

Наши эксперименты показывают, что наш механизм согласования позволяет базовым переговорщикам значительно превосходить базовых агентов, не поддерживающих связь.

Базовые переговорщики значительно превосходят по эффективности необщающихся агентов. Слева: Протокол взаимного предложения. Справа: протокол «предложи-выбери». «Преимущество переговорщика» — это соотношение коэффициентов выигрыша между агентами, которые общаются, и агентами, которые не общаются.

Агенты нарушают соглашения

В Дипломатии соглашения, достигнутые в ходе переговоров, не имеют обязательной силы (коммуникация — это «дешевый разговор‘). Но что происходит, когда агенты, соглашающиеся на контракт в один ход, в следующий раз отклоняются от него? Во многих реальных условиях люди соглашаются действовать определенным образом, но позже не выполняют своих обязательств. Чтобы обеспечить сотрудничество между агентами ИИ или между агентами и людьми, мы должны изучить потенциальную ловушку агентов, стратегически нарушающих свои соглашения, и способы решения этой проблемы. Мы использовали Дипломатию, чтобы изучить, как способность отказаться от наших обязательств подрывает доверие и сотрудничество, и определить условия, способствующие честному сотрудничеству.

Таким образом, мы рассматриваем агентов-уклонистов, которые превосходят честных базовых переговорщиков, отклоняясь от согласованных контрактов. Простые уклонисты просто «забывают» о том, что они согласились на контракт, и двигаются, как хотят. Условные уклонисты более изощренны и оптимизируют свои действия, предполагая, что другие игроки, принявшие контракт, будут действовать в соответствии с ним.

Все типы наших коммуникационных агентов. Согласно зеленым условиям группировки, каждый синий блок представляет определенный алгоритм агента.

Мы показываем, что простые и условные уклонители значительно превосходят базовые переговорщики, а условные отклонения — в подавляющем большинстве случаев.

Агенты-отклонители и базовые агенты-переговорщики. Слева: Протокол взаимного предложения. Справа: протокол «предложи-выбери». «Преимущество отклоняющихся» — это соотношение процентных ставок между Агентами-отклонителями по сравнению с базовыми переговорщиками.

Поощрение агентов быть честными

Затем мы решаем проблему отклонения с помощью защитных агентов, которые отрицательно реагируют на отклонения. Мы расследуем Binary Negotiators, которые просто обрывают связь с агентами, которые нарушают соглашение с ними. Но избегание — это мягкая реакция, поэтому мы также разрабатываем агентов-санкционеров, которые не воспринимают предательство легкомысленно, а вместо этого изменяют свои цели, чтобы активно пытаться снизить ценность уклоняющегося — злопамятного противника! Мы показываем, что оба типа агентов защиты снижают преимущество отклонения, особенно агенты санкций.

Агенты, не являющиеся девиаторами (базовые переговорщики, бинарные переговорщики и санкционирующие агенты), играющие против условных уклонителей. Слева: протокол взаимного предложения. Справа: Предложить-выбрать протокол. Значения «преимущества уклоняющегося» ниже 1 указывают на то, что защитный агент превосходит агента-уклоняющегося. Популяция бинарных переговорщиков (синие) уменьшает преимущество девиаторов по сравнению с популяцией базовых переговорщиков (серые).

Наконец, мы представляем Обученных уклонистов, которые адаптируют и оптимизируют свое поведение против агентов, налагающих санкции, в нескольких играх, пытаясь сделать вышеперечисленные средства защиты менее эффективными. Ученый уклонист нарушит договор только тогда, когда немедленная выгода от отклонения достаточно высока, а способность другого агента принять ответные меры достаточно низка. На практике Ученые уклонисты иногда нарушают контракты в конце игры и при этом получают небольшое преимущество перед агентами, налагающими санкции. Тем не менее такие санкции вынуждают «Ученого уклониста» выполнять более 99,7% своих контрактов.

Мы также изучаем возможную динамику обучения санкциям и отклонениям: что происходит, когда санкционирующие агенты также могут отклоняться от контрактов, и потенциальный стимул к прекращению санкций, когда такое поведение дорого обходится. Такие проблемы могут постепенно подрывать сотрудничество, поэтому могут потребоваться дополнительные механизмы, такие как повторное взаимодействие в нескольких играх или использование систем доверия и репутации.

Наша статья оставляет открытыми многие вопросы для будущих исследований: можно ли разработать более сложные протоколы, чтобы поощрять еще более честное поведение? Как можно справиться с сочетанием коммуникативных технологий и несовершенной информации? Наконец, какие еще механизмы могли бы удержать от нарушения договоренностей? Создание честных, прозрачных и заслуживающих доверия систем искусственного интеллекта — чрезвычайно важная тема и ключевая часть миссии DeepMind. Изучение этих вопросов в таких «песочницах», как «Дипломатия», помогает нам лучше понять противоречия между сотрудничеством и конкуренцией, которые могут существовать в реальном мире. В конечном счете, мы считаем, что решение этих проблем позволит нам лучше понять, как разрабатывать системы искусственного интеллекта в соответствии с ценностями и приоритетами общества.

Прочитайте нашу полную статью здесь.

LEAVE A REPLY

Please enter your comment!
Please enter your name here