Обнаружение присутствия агента в системе

Технологии

Обнаружение присутствия агента в системе | DeepTech

DEEPTECH

July 16, 2023

Новое формальное определение агентства дает четкие принципы причинно-следственного моделирования агентов ИИ и стимулов, с которыми они сталкиваются.

Мы хотим создавать безопасные, согласованные системы общего искусственного интеллекта (AGI), которые преследуют цели, намеченные их разработчиками. Диаграммы причинного влияния (CID) — это способ моделирования ситуаций принятия решений, которые позволяют нам рассуждать о поощрения агентов. Например, вот CID для одношагового марковского процесса принятия решений — типичная структура для задач принятия решений.

S₁ представляет начальное состояние, A₁ представляет решение агента (квадрат), S₂ следующее состояние. R₂ — вознаграждение/полезность агента (алмаз). Сплошные связи указывают на причинное влияние. Штриховые ребра обозначают информационные связи — то, что знает агент при принятии решения.

Связывая настройки обучения со стимулами, которые формируют поведение агента, CID помогают выявить потенциальные риски перед обучением агента и могут вдохновить на создание более совершенных моделей агентов. Но как узнать, является ли CID точной моделью тренировочной установки?

Наша новая газета, Обнаружение агентоввводит новые способы решения этих проблем, в том числе:

Первое формальное каузальное определение агентов: Агенты — это системы, которые адаптировали бы свою политику, если бы их действия по-другому влияли на мир.
Алгоритм обнаружения агентов по эмпирическим данным
Перевод между каузальными моделями и CID
Устранение прежних недоразумений из-за неправильного причинно-следственного моделирования агентов

В совокупности эти результаты обеспечивают дополнительный уровень уверенности в том, что ошибка моделирования не была допущена, а это означает, что CID можно использовать для анализа стимулов и характеристик безопасности агента с большей уверенностью.

Пример: моделирование мыши как агента

Чтобы проиллюстрировать наш метод, рассмотрим следующий пример, состоящий из мира, состоящего из трех квадратов, где мышь, начиная с среднего квадрата, выбирает, идти ли влево или вправо, добирается до следующей позиции и затем, возможно, получает немного сыра. Пол ледяной, так что мышь может поскользнуться. Иногда сыр справа, а иногда слева.

Это может быть представлено следующим CID:

CID для мыши. D представляет решение левого/правого. X — это новая позиция мыши после выполнения действия влево/вправо (она может соскользнуть и случайно оказаться на другой стороне). U представляет, получит ли мышь сыр или нет.

Интуитивное предположение о том, что мышь выбрала бы различное поведение для различных параметров окружающей среды (ледяность, распределение сыра), может быть зафиксировано с помощью механизированный причинно-следственный граф, который для каждой переменной (уровня объекта) также включает переменную механизма, которая определяет, как переменная зависит от своих родителей. Важно отметить, что мы допускаем связи между переменными механизма.

Этот граф содержит дополнительные узлы механизма, выделенные черным цветом, представляющие политику мыши, а также распределение холода и сыра.

Механизированный причинно-следственный граф для среды мыши и сыра.

Границы между механизмами представляют собой прямое причинное влияние. Синие края особенные Терминал ребра — грубо говоря, ребра механизма A~ → B~, которые все еще были бы там, даже если переменная уровня объекта A была изменена так, чтобы у нее не было исходящих ребер.

В приведенном выше примере, поскольку U не имеет дочерних элементов, его ребро механизма должно быть терминальным. Но механическое ребро X~ → D~ не является терминальным, потому что если мы отрежем X от его дочернего элемента U, то мышь больше не будет адаптировать свое решение (поскольку ее положение не повлияет на то, получит ли она сыр).

Причинное обнаружение агентов

Причинное обнаружение выводит причинно-следственный график из экспериментов, включающих вмешательства. В частности, можно обнаружить стрелку от переменной A к переменной B, экспериментально воздействуя на A и проверяя, реагирует ли B, даже если все остальные переменные остаются фиксированными.

Наш первый алгоритм использует эту технику для обнаружения механизированного причинно-следственного графа:

Алгоритм 1 принимает в качестве входных данных интервенционные данные из системы (среда мыши и сыра) и использует обнаружение причинно-следственных связей для вывода механизированного причинно-следственного графика. Подробнее см. в документе.

Наш второй алгоритм преобразует этот механизированный причинно-следственный граф в игровой граф:

Алгоритм 2 принимает в качестве входных данных механизированный причинный граф и отображает его в игровой граф. Входящее оконечное ребро указывает на решение, исходящее указывает на полезность.

В совокупности Алгоритм 1, за которым следует Алгоритм 2, позволяет нам обнаруживать агентов из каузальных экспериментов, представляя их с помощью CID.

Наш третий алгоритм преобразует игровой граф в механизированный каузальный граф, позволяя нам переводить представления между игрой и механизированным каузальным графом при некоторых дополнительных предположениях:

Алгоритм 3 принимает в качестве входных данных игровой граф и отображает его в механизированный причинно-следственный граф. Решение указывает на входящее оконечное ребро, полезность указывает на исходящее терминальное ребро.

Улучшенные инструменты безопасности для моделирования агентов ИИ

Мы предложили первое формальное каузальное определение агентов. Основанное на каузальном открытии, наше ключевое понимание заключается в том, что агенты — это системы, которые адаптируют свое поведение в ответ на изменения в том, как их действия влияют на мир. Действительно, наши алгоритмы 1 и 2 описывают точный экспериментальный процесс, который может помочь оценить, содержит ли система агент.

Интерес к причинно-следственному моделированию систем ИИ быстро растет, и наше исследование основывает это моделирование на экспериментах по обнаружению причинно-следственных связей. Наша статья демонстрирует потенциал нашего подхода, улучшая анализ безопасности нескольких примеров систем ИИ, и показывает, что причинно-следственная связь является полезной основой для обнаружения агента в системе, что является ключевой проблемой при оценке рисков, связанных с ОИИ.

‍

Хотите узнать больше? Проверьте наши бумага. Отзывы и комментарии приветствуются.

Новое формальное определение агентства дает четкие принципы причинно-следственного моделирования агентов ИИ и стимулов, с которыми они сталкиваются.

Пример: моделирование мыши как агента

Причинное обнаружение агентов

Улучшенные инструменты безопасности для моделирования агентов ИИ

LEAVE A REPLY Cancel reply