Обнаружение присутствия агента в системе

Технологии

Обнаружение присутствия агента в системе | DeepTech

DEEPTECH

October 28, 2023

Исследовать

Опубликовано: 18 августа 2022 г.
Авторы: Закари Кентон, Рамана Кумар, Себастьян Фаркуар, Джонатан Риченс, Мэтт МакДермотт, Том Эверитт

Новое формальное определение агентства дает четкие принципы причинного моделирования агентов ИИ и стимулов, с которыми они сталкиваются.

Мы хотим создавать безопасные, согласованные системы общего искусственного интеллекта (AGI), которые преследуют намеченные цели своих разработчиков. Диаграммы причинно-следственного влияния (CID) — это способ моделирования ситуаций принятия решений, который позволяет нам рассуждать о агентские стимулы. Например, вот CID для одношагового марковского процесса принятия решений – типичная структура для задач принятия решений.

S1 представляет начальное состояние, A1 представляет решение агента (квадрат), S2 — следующее состояние. R2 — вознаграждение/полезность агента (ромб). Сплошные связи указывают на причинное влияние. Пунктирные края обозначают информационные связи – то, что знает агент при принятии решения.

Связывая настройки обучения со стимулами, которые формируют поведение агентов, CID помогают выявить потенциальные риски перед обучением агента и могут стимулировать более эффективные разработки агентов. Но как нам узнать, является ли CID точной моделью тренировочной системы?

Наша новая газета, Обнаружение агентовпредставляет новые способы решения этих проблем, в том числе:

Первое формальное причинное определение агентов: Агенты — это системы, которые адаптировали бы свою политику, если бы их действия влияли на мир по-другому.
Алгоритм обнаружения агентов на основе эмпирических данных
Перевод между причинно-следственными моделями и CID
Разрешение возникшей ранее путаницы из-за неправильного причинно-следственного моделирования агентов

В совокупности эти результаты обеспечивают дополнительный уровень уверенности в том, что ошибка моделирования не была допущена, а это означает, что CID можно использовать для анализа стимулов агента и свойств безопасности с большей уверенностью.

Пример: моделирование мыши как агента

Чтобы проиллюстрировать наш метод, рассмотрим следующий пример, состоящий из мира, состоящего из трех квадратов, где мышь, начиная со среднего квадрата, выбирает путь влево или вправо, достигает следующей позиции и затем потенциально получает немного сыра. Пол ледяной, поэтому мышь может поскользнуться. Иногда сыр находится справа, иногда слева.

Среда мыши и сыра.

Это может быть представлено следующим CID:

CID для мыши. D представляет собой решение левого/правого. X — это новая позиция мыши после выполнения действия влево/вправо (она может соскользнуть и случайно оказаться на другой стороне). U показывает, получит ли мышь сыр или нет.

Интуитивное представление о том, что мышь будет выбирать разное поведение для разных параметров окружающей среды (леденение, распределение сыра), можно уловить с помощью механизированный причинный граф, который для каждой переменной (уровня объекта) также включает переменную механизма, которая определяет, как переменная зависит от своих родителей. Важно отметить, что мы допускаем связи между переменными механизма.

Этот график содержит дополнительные узлы механизмов черного цвета, представляющие политику мыши и распределение льда и сыра.

Механизированный причинно-следственный график для среды мыши и сыра.

Границы между механизмами представляют собой прямое причинное влияние. Синие края особенные. Терминал ребра — грубо говоря, ребра механизма A~ → B~, которые все равно были бы там, даже если бы переменная уровня объекта A была изменена так, что у нее не было исходящих ребер.

В приведенном выше примере, поскольку у U нет дочерних элементов, его ребро механизма должно быть конечным. Но ребро механизма X~ → D~ не является терминальным, потому что если мы отрежем X от его дочернего элемента U, мышь больше не будет адаптировать свое решение (поскольку ее положение не повлияет на то, получит ли она сыр).

Причинное обнаружение агентов

Причинно-следственная связь выводит причинно-следственную связь из экспериментов, включающих вмешательства. В частности, можно обнаружить стрелку от переменной A к переменной B, экспериментально вмешавшись в A и проверив, реагирует ли B, даже если все остальные переменные остаются фиксированными.

Наш первый алгоритм использует эту технику для обнаружения механизированного причинного графа:

Алгоритм 1 принимает в качестве входных данных данные вмешательства из системы (среда мыши и сыра) и использует причинно-следственную связь для вывода механизированного причинно-следственного графа. Подробности смотрите в статье.

Наш второй алгоритм преобразует этот механизированный причинный граф в игровой граф:

Алгоритм 2 принимает на вход механизированный причинно-следственный граф и отображает его в игровой граф. Входящий край терминала указывает на решение, исходящий — на полезность.

В совокупности Алгоритм 1, за которым следует Алгоритм 2, позволяет нам обнаруживать агентов в результате причинно-следственных экспериментов, представляя их с помощью CID.

Наш третий алгоритм преобразует игровой граф в механизированный причинный граф, позволяя нам осуществлять преобразование между представлением игры и механизированного причинного графа при некоторых дополнительных предположениях:

Алгоритм 3 принимает на вход граф игры и отображает его в механизированный причинно-следственный граф. Решение указывает границу входящего терминала, утилита указывает границу исходящего терминала.

Улучшенные инструменты безопасности для моделирования агентов ИИ

Мы предложили первое формальное причинное определение агентов. Наше ключевое понимание, основанное на открытии причинно-следственных связей, заключается в том, что агенты — это системы, которые адаптируют свое поведение в ответ на изменения в том, как их действия влияют на мир. Действительно, наши алгоритмы 1 и 2 описывают точный экспериментальный процесс, который может помочь оценить, содержит ли система агент.

Интерес к причинно-следственному моделированию систем искусственного интеллекта быстро растет, и наши исследования основывают это моделирование на экспериментах по обнаружению причинно-следственных связей. Наша статья демонстрирует потенциал нашего подхода путем улучшения анализа безопасности нескольких примеров систем ИИ и показывает, что причинно-следственная связь является полезной основой для определения наличия агента в системе – ключевой проблемы для оценки рисков, связанных с ИИ.

Хотите узнать больше? Ознакомьтесь с нашим бумага. Обратная связь и комментарии приветствуются.

Пример: моделирование мыши как агента

Причинное обнаружение агентов

Улучшенные инструменты безопасности для моделирования агентов ИИ

LEAVE A REPLY Cancel reply