Исследовать
Новое формальное определение агентства дает четкие принципы причинного моделирования агентов ИИ и стимулов, с которыми они сталкиваются.
Мы хотим создавать безопасные, согласованные системы общего искусственного интеллекта (AGI), которые преследуют намеченные цели своих разработчиков. Диаграммы причинно-следственного влияния (CID) — это способ моделирования ситуаций принятия решений, который позволяет нам рассуждать о агентские стимулы. Например, вот CID для одношагового марковского процесса принятия решений – типичная структура для задач принятия решений.
Связывая настройки обучения со стимулами, которые формируют поведение агентов, CID помогают выявить потенциальные риски перед обучением агента и могут стимулировать более эффективные разработки агентов. Но как нам узнать, является ли CID точной моделью тренировочной системы?
Наша новая газета, Обнаружение агентовпредставляет новые способы решения этих проблем, в том числе:
- Первое формальное причинное определение агентов: Агенты — это системы, которые адаптировали бы свою политику, если бы их действия влияли на мир по-другому.
- Алгоритм обнаружения агентов на основе эмпирических данных
- Перевод между причинно-следственными моделями и CID
- Разрешение возникшей ранее путаницы из-за неправильного причинно-следственного моделирования агентов
В совокупности эти результаты обеспечивают дополнительный уровень уверенности в том, что ошибка моделирования не была допущена, а это означает, что CID можно использовать для анализа стимулов агента и свойств безопасности с большей уверенностью.
Пример: моделирование мыши как агента
Чтобы проиллюстрировать наш метод, рассмотрим следующий пример, состоящий из мира, состоящего из трех квадратов, где мышь, начиная со среднего квадрата, выбирает путь влево или вправо, достигает следующей позиции и затем потенциально получает немного сыра. Пол ледяной, поэтому мышь может поскользнуться. Иногда сыр находится справа, иногда слева.
Это может быть представлено следующим CID:
Интуитивное представление о том, что мышь будет выбирать разное поведение для разных параметров окружающей среды (леденение, распределение сыра), можно уловить с помощью механизированный причинный граф, который для каждой переменной (уровня объекта) также включает переменную механизма, которая определяет, как переменная зависит от своих родителей. Важно отметить, что мы допускаем связи между переменными механизма.
Этот график содержит дополнительные узлы механизмов черного цвета, представляющие политику мыши и распределение льда и сыра.
Границы между механизмами представляют собой прямое причинное влияние. Синие края особенные. Терминал ребра — грубо говоря, ребра механизма A~ → B~, которые все равно были бы там, даже если бы переменная уровня объекта A была изменена так, что у нее не было исходящих ребер.
В приведенном выше примере, поскольку у U нет дочерних элементов, его ребро механизма должно быть конечным. Но ребро механизма X~ → D~ не является терминальным, потому что если мы отрежем X от его дочернего элемента U, мышь больше не будет адаптировать свое решение (поскольку ее положение не повлияет на то, получит ли она сыр).
Причинное обнаружение агентов
Причинно-следственная связь выводит причинно-следственную связь из экспериментов, включающих вмешательства. В частности, можно обнаружить стрелку от переменной A к переменной B, экспериментально вмешавшись в A и проверив, реагирует ли B, даже если все остальные переменные остаются фиксированными.
Наш первый алгоритм использует эту технику для обнаружения механизированного причинного графа:
Наш второй алгоритм преобразует этот механизированный причинный граф в игровой граф:
В совокупности Алгоритм 1, за которым следует Алгоритм 2, позволяет нам обнаруживать агентов в результате причинно-следственных экспериментов, представляя их с помощью CID.
Наш третий алгоритм преобразует игровой граф в механизированный причинный граф, позволяя нам осуществлять преобразование между представлением игры и механизированного причинного графа при некоторых дополнительных предположениях:
Улучшенные инструменты безопасности для моделирования агентов ИИ
Мы предложили первое формальное причинное определение агентов. Наше ключевое понимание, основанное на открытии причинно-следственных связей, заключается в том, что агенты — это системы, которые адаптируют свое поведение в ответ на изменения в том, как их действия влияют на мир. Действительно, наши алгоритмы 1 и 2 описывают точный экспериментальный процесс, который может помочь оценить, содержит ли система агент.
Интерес к причинно-следственному моделированию систем искусственного интеллекта быстро растет, и наши исследования основывают это моделирование на экспериментах по обнаружению причинно-следственных связей. Наша статья демонстрирует потенциал нашего подхода путем улучшения анализа безопасности нескольких примеров систем ИИ и показывает, что причинно-следственная связь является полезной основой для определения наличия агента в системе – ключевой проблемы для оценки рисков, связанных с ИИ.
Хотите узнать больше? Ознакомьтесь с нашим бумага. Обратная связь и комментарии приветствуются.