Home Технологии Выбор активной автономной политики | DeepTech

Выбор активной автономной политики | DeepTech

0
Выбор активной автономной политики
 | DeepTech

В последние годы обучение с подкреплением (RL) добилось огромного прогресса в решении реальных проблем, а автономное RL сделало его еще более практичным. Вместо прямого взаимодействия с окружающей средой мы теперь можем обучать множество алгоритмов из одного предварительно записанного набора данных. Однако мы теряем практические преимущества автономного RL в эффективности данных, когда оцениваем имеющиеся политики.

Например, при обучении роботов-манипуляторов ресурсы роботов обычно ограничены, и обучение многих политик с помощью автономного RL на одном наборе данных дает нам большое преимущество в эффективности данных по сравнению с онлайн RL. Оценка каждой политики — дорогостоящий процесс, который требует тысяч взаимодействий с роботом. Когда мы выбираем лучший алгоритм, гиперпараметры и количество шагов обучения, проблема быстро становится неразрешимой.

Чтобы сделать RL более применимым к реальным приложениям, таким как робототехника, мы предлагаем использовать интеллектуальную процедуру оценки для выбора политики для развертывания, называемую активным выбором политики в автономном режиме (A-OPS). В A-OPS мы используем предварительно записанный набор данных и допускаем ограниченное взаимодействие с реальной средой для повышения качества выбора.

Активный автономный выбор политики (A-OPS) выбирает наилучшую политику из набора политик с учетом предварительно записанного набора данных и ограниченного взаимодействия со средой.

Чтобы свести к минимуму взаимодействие с реальной средой, мы реализуем три ключевые функции:

  1. Оценка политики вне политики, такая как подогнанная Q-оценка (FQE), позволяет нам сделать начальное предположение о производительности каждой политики на основе автономного набора данных. Он хорошо коррелирует с реальными характеристиками во многих средах, включая реальную робототехнику, где он применяется впервые.
Показатели FQE хорошо согласуются с реальными характеристиками политик, обученных как в sim2real, так и в офлайн-сетях RL.

Возвраты политик моделируются совместно с использованием гауссовского процесса, где наблюдения включают оценки FQE и небольшое количество вновь собранных эпизодических возвратов от робота. Оценив одну политику, мы получаем информацию обо всех политиках, поскольку их распределения коррелируются через ядро ​​между парами политик. Ядро предполагает, что если политики предпринимают аналогичные действия — например, перемещают роботизированный захват в одинаковом направлении — они, как правило, имеют схожие результаты.

Мы используем показатели OPE и эпизодическую доходность для моделирования латентной эффективности политики в виде гауссовского процесса.
Сходство между политиками моделируется через расстояние между действиями, которые производят эти политики.
  1. Чтобы быть более эффективными с данными, мы применяем байесовскую оптимизацию и отдаем приоритет более перспективным политикам, которые будут оцениваться следующими, а именно тем, которые имеют высокую прогнозируемую производительность и большую дисперсию.

Мы продемонстрировали эту процедуру в ряде сред в нескольких областях: dm-control, Atari, смоделированная и реальная робототехника. Использование A-OPS быстро уменьшает сожаление, и с помощью небольшого количества оценок политики мы определяем лучшую политику.

В реальном роботизированном эксперименте A-OPS помогает определить очень хорошую политику быстрее, чем другие базовые показатели. Чтобы найти политику с почти нулевым сожалением из 20 политик, требуется столько же времени, сколько требуется для оценки двух политик с текущими процедурами.

Наши результаты показывают, что можно сделать эффективный выбор политики в автономном режиме с небольшим количеством взаимодействий со средой, используя автономные данные, специальное ядро ​​и байесовскую оптимизацию. Код для A-OPS находится в открытом доступе и доступно на GitHub с примером набора данных, чтобы попробовать.

LEAVE A REPLY

Please enter your comment!
Please enter your name here