Home Технологии О выразительности марковского вознаграждения | DeepTech

О выразительности марковского вознаграждения | DeepTech

0
О выразительности марковского вознаграждения
 | DeepTech

Награда является движущей силой агентов обучения с подкреплением (RL). Учитывая центральную роль вознаграждения в RL, вознаграждение часто считается достаточно общим по своей выразительности, как это резюмируется гипотезой вознаграждения Саттона и Литтмана:

В нашей работе мы делаем первые шаги к систематическому изучению этой гипотезы. Для этого мы рассмотрим следующий мысленный эксперимент с участием Алисы, дизайнера, и Боба, обучающегося агента:

Мы предполагаем, что Алиса думает о задаче, которую она хотела бы, чтобы Боб научился решать – эта задача может быть в форме описания на естественном языке («сбалансировать этот полюс»), воображаемого положения дел («достичь любой из выигрышных конфигураций шахматная доска») или что-то более традиционное, например функция вознаграждения или ценности. Затем мы представляем, что Алиса преобразует свой выбор задачи в некий генератор, который будет предоставлять обучающий сигнал (например, вознаграждение) Бобу (обучающемуся агенту), который будет учиться на этом сигнале на протяжении всей своей жизни. Затем мы обосновываем наше исследование гипотезы вознаграждения ответом на следующий вопрос: учитывая выбор задачи Алисой, всегда ли существует функция вознаграждения, которая может передать эту задачу Бобу?

Что такое задача?

Чтобы сделать наше исследование этого вопроса конкретным, мы сначала ограничим внимание тремя видами задач. В частности, мы вводим три типа задач, которые, по нашему мнению, охватывают разумные виды задач: 1) набор приемлемых политик (SOAP), 2) порядок политики (PO) и 3) порядок траектории (TO). Эти три формы задач представляют собой конкретные примеры задач, которые мы хотели бы, чтобы агент научился решать.

Затем мы изучаем, способно ли вознаграждение охватить каждый из этих типов задач в ограниченных средах. Важно отметить, что мы фокусируем внимание только на марковских функциях вознаграждения; например, при наличии пространства состояний, достаточного для формирования такой задачи, как пары (x,y) в сеточном мире, существует ли функция вознаграждения, которая зависит только от этого же пространства состояний и которая может захватить задачу?

Первый основной результат

Наш первый основной результат показывает, что для каждого из трех типов задач существуют пары «среда-задача», для которых не существует марковской функции вознаграждения, которая могла бы уловить задачу. Одним из примеров такой пары является задача «обойти сетку по или против часовой стрелки» в типичном сеточном мире:

Эта задача естественным образом описывается протоколом SOAP, который состоит из двух приемлемых политик: политики «по часовой стрелке» (синий цвет) и политики «против часовой стрелки» (фиолетовый цвет). Чтобы функция вознаграждения Маркова могла выразить эту задачу, ей необходимо сделать эти две политики строго более высокими по значению, чем все другие детерминированные политики. Однако такой марковской функции вознаграждения не существует: оптимальность одного действия «движения по часовой стрелке» будет зависеть от того, двигался ли агент уже в этом направлении в прошлом. Поскольку функция вознаграждения должна быть марковской, она не может передавать такого рода информацию. Подобные примеры показывают, что вознаграждение Маркова не может охватить каждый политический порядок и порядок траектории.

Второй основной результат

Учитывая, что некоторые задачи можно захватить, а некоторые нет, мы затем исследуем, существует ли эффективная процедура определения того, может ли данная задача быть захвачена вознаграждением в данной среде. Кроме того, если существует функция вознаграждения, которая фиксирует данную задачу, в идеале нам хотелось бы иметь возможность вывести такую ​​функцию вознаграждения. Наш второй результат — это положительный результат, который говорит, что для любой конечной пары среда-задача существует процедура, которая может 1) решить, может ли задача быть захвачена марковским вознаграждением в данной среде, и 2) выводить желаемую функцию вознаграждения, которая точно передает задачу, если такая функция существует.

Эта работа прокладывает первоначальные пути к пониманию масштабов гипотезы вознаграждения, но еще многое предстоит сделать, чтобы обобщить эти результаты за пределами конечной среды, марковских вознаграждений и простых понятий «задача» и «выразительность». Мы надеемся, что эта работа предоставит новые концептуальные взгляды на вознаграждение и его место в обучении с подкреплением.

LEAVE A REPLY

Please enter your comment!
Please enter your name here