Исследовать
Изучение примеров неправильного обобщения целей: когда возможности системы ИИ обобщаются, а ее цель — нет.
Создавая все более совершенные системы искусственного интеллекта (ИИ), мы хотим быть уверены, что они не преследуют нежелательных целей. Такое поведение ИИ-агента часто является результатом спецификации игр – эксплуатация неудачного выбора того, за что вознаграждают. В нашем последняя статьямы исследуем более тонкий механизм, с помощью которого системы ИИ могут непреднамеренно научиться преследовать нежелательные цели: неправильное обобщение цели (ГМГ).
GMG возникает, когда система возможности обобщать успешно, но это цель не обобщает желаемым образом, поэтому система грамотно преследует не ту цель. Важно отметить, что в отличие от игр со спецификациями, GMG может возникнуть, даже если система ИИ обучена с использованием правильной спецификации.
Наша более ранняя работа по культурной передаче привела к примеру поведения GMG, который мы не проектировали. Агент (синяя капля внизу) должен перемещаться по окружающей среде, посещая цветные сферы в правильном порядке. Во время обучения есть «экспертный» агент (красная капля), который посещает цветные сферы в правильном порядке. Агент узнает, что следование за красной каплей — полезная стратегия.
К сожалению, агент хорошо работает во время обучения, но плохо, когда после обучения мы заменяем эксперта «антиэкспертом», который посещает сферы в неправильном порядке.
Даже несмотря на то, что агент может наблюдать, что он получает отрицательное вознаграждение, агент не преследует желаемую цель «посетить сферы в правильном порядке», а вместо этого грамотно преследует цель «следовать за красным агентом».
GMG не ограничивается такими средами обучения с подкреплением, как эта. Фактически, это может произойти с любой системой обучения, включая «обучение в несколько этапов» больших языковых моделей (LLM). Подходы к обучению с небольшим количеством попыток направлены на создание точных моделей с меньшим количеством обучающих данных.
Мы предложили один LLM, Суслик, для вычисления линейных выражений, включающих неизвестные переменные и константы, такие как x+y-3. Чтобы решить эти выражения, Gopher должен сначала спросить о значениях неизвестных переменных. Мы предоставляем ему десять обучающих примеров, каждый из которых включает две неизвестные переменные.
Во время тестирования модели задаются вопросы с нулем, одной или тремя неизвестными переменными. Хотя модель правильно обобщает выражения с одной или тремя неизвестными переменными, когда неизвестных нет, она, тем не менее, задает избыточные вопросы, такие как «Сколько будет 6?». Модель всегда запрашивает пользователя хотя бы один раз, прежде чем дать ответ, даже если в этом нет необходимости.
В нашей статье мы приводим дополнительные примеры из других условий обучения.
Решение проблемы GMG важно для согласования систем ИИ с целями их разработчиков просто потому, что это механизм, из-за которого система ИИ может дать сбой. Это будет особенно важно, когда мы приближаемся к искусственному общему интеллекту (AGI).
Рассмотрим два возможных типа систем AGI:
- A1: Предполагаемая модель. Эта система искусственного интеллекта делает то, что задумали ее создатели.
- A2: Обманчивая модель. Эта система ИИ преследует какую-то нежелательную цель, но (по предположению) достаточно умна, чтобы знать, что она будет наказана, если будет вести себя вопреки намерениям ее создателя.
Поскольку A1 и A2 будут демонстрировать одинаковое поведение во время обучения, возможность GMG означает, что любая модель может принять форму, даже со спецификацией, которая вознаграждает только предполагаемое поведение. Если А2 будет изучен, он попытается подорвать человеческий надзор, чтобы реализовать свои планы по достижению нежелательной цели.
Наша исследовательская группа была бы рада увидеть дальнейшую работу по изучению вероятности возникновения GMG на практике и возможных способов смягчения последствий. В нашей статье мы предлагаем некоторые подходы, в том числе механистический интерпретируемость и рекурсивный оценканад обоими из которых мы активно работаем.
В настоящее время мы собираем примеры GMG в этом общедоступная таблица. Если вы столкнулись с ошибочным обобщением целей в исследованиях ИИ, мы приглашаем вас присылайте примеры сюда.