Home Технологии Как нежелательные цели могут возникнуть при правильном вознаграждении | DeepTech

Как нежелательные цели могут возникнуть при правильном вознаграждении | DeepTech

0

Изучение примеров неправильного обобщения целей — когда возможности системы ИИ обобщаются, а цель — нет.

Создавая все более совершенные системы искусственного интеллекта (ИИ), мы хотим быть уверены, что они не преследуют нежелательных целей. Такое поведение агента ИИ часто является результатом спецификация игры – использование плохого выбора того, за что они вознаграждаются. В нашем последняя статьямы исследуем более тонкий механизм, с помощью которого системы ИИ могут непреднамеренно научиться преследовать нежелательные цели: неправильное обобщение цели (ГМГ).

GMG происходит, когда система возможности обобщать успешно, но его цель не обобщает как хотелось бы, поэтому система грамотно преследует неправильную цель. Важно отметить, что в отличие от игр со спецификациями, GMG может происходить, даже если система ИИ обучена правильной спецификации.

Наша предыдущая работа над культурной передачей привела к примеру поведения GMG, которое мы не разрабатывали. Агент (синяя точка внизу) должен перемещаться по окружающей среде, посещая цветные сферы в правильном порядке. Во время обучения есть «экспертный» агент (красная капля), который посещает цветные сферы в правильном порядке. Агент узнает, что следование за красным пятном — полезная стратегия.

Агент (синий) наблюдает за экспертом (красный), чтобы определить, к какой сфере идти.

К сожалению, если агент работает хорошо во время обучения, то плохо, когда после обучения мы заменяем эксперта на «антиэксперта», который посещает сферы в неправильном порядке.

Агент (синий) следует за антиэкспертом (красный), накапливая отрицательное вознаграждение.

Несмотря на то, что агент может наблюдать, что он получает отрицательное вознаграждение, агент не преследует желаемую цель «посетить сферы в правильном порядке», а вместо этого грамотно преследует цель «следовать за красным агентом».

GMG не ограничивается такими средами обучения с подкреплением. На самом деле, это может произойти с любой системой обучения, включая «обучение за несколько шагов» больших языковых моделей (LLM). Подходы к обучению с небольшим количеством выстрелов направлены на создание точных моделей с меньшим количеством обучающих данных.

Мы подсказали одному LLM, суслик, для вычисления линейных выражений с неизвестными переменными и константами, такими как x+y-3. Чтобы решить эти выражения, Gopher должен сначала спросить о значениях неизвестных переменных. Мы предоставляем ему десять обучающих примеров, каждый из которых включает две неизвестные переменные.

Во время тестирования модели задаются вопросы с нулем, одной или тремя неизвестными переменными. Хотя модель правильно обобщает выражения с одной или тремя неизвестными переменными, когда неизвестных нет, тем не менее, она задает избыточные вопросы, такие как «Сколько будет 6?». Модель всегда запрашивает пользователя хотя бы один раз, прежде чем дать ответ, даже если в этом нет необходимости.

Диалоги с Gopher для краткого изучения задачи Evaluating Expressions с выделенным поведением GMG.

В нашей статье мы приводим дополнительные примеры в других условиях обучения.

Решение GMG важно для согласования систем ИИ с целями их разработчиков просто потому, что это механизм, из-за которого система ИИ может дать осечку. Это будет особенно важно, когда мы приблизимся к искусственному общему интеллекту (AGI).

Рассмотрим два возможных типа систем AGI:

  • A1: Предполагаемая модель. Эта система искусственного интеллекта делает то, что задумали ее разработчики.
  • A2: Обманчивая модель. Эта система ИИ преследует какую-то нежелательную цель, но (по предположению) также достаточно умна, чтобы знать, что она будет наказана, если ее поведение противоречит намерениям ее создателя.

Поскольку A1 и A2 будут демонстрировать одинаковое поведение во время обучения, возможность GMG означает, что любая модель может принять форму, даже если спецификация поощряет только предполагаемое поведение. Если A2 будет изучен, он попытается ниспровергнуть человеческий надзор, чтобы реализовать свои планы по достижению нежелательной цели.

Наша исследовательская группа была бы рада увидеть последующую работу по изучению вероятности возникновения GMG на практике и возможных мер по смягчению последствий. В нашей статье мы предлагаем несколько подходов, в том числе механический интерпретируемость и рекурсивный оценканад обоими из которых мы активно работаем.

В настоящее время мы собираем примеры GMG в этом общедоступная таблица. Если вы столкнулись с неправильным обобщением целей в исследованиях ИИ, мы приглашаем вас присылайте примеры сюда.

LEAVE A REPLY

Please enter your comment!
Please enter your name here