Home Технологии Выбор активной политики оффлайн – Google DeepMind | DeepTech

Выбор активной политики оффлайн – Google DeepMind | DeepTech

0
Выбор активной политики оффлайн – Google DeepMind
 | DeepTech

Обучение с подкреплением (RL) за последние годы добилось огромного прогресса в решении реальных проблем, а оффлайновое RL сделало его еще более практичным. Вместо прямого взаимодействия с окружающей средой теперь мы можем обучать множество алгоритмов на основе одного заранее записанного набора данных. Однако мы теряем практические преимущества в эффективности данных автономного RL, когда оцениваем имеющиеся политики.

Например, при обучении роботов-манипуляторов ресурсы роботов обычно ограничены, а обучение многих политик с помощью автономного RL на одном наборе данных дает нам большое преимущество в эффективности данных по сравнению с онлайн-RL. Оценка каждой политики — дорогостоящий процесс, требующий тысячного взаимодействия с роботом. Когда мы выбираем лучший алгоритм, гиперпараметры и ряд этапов обучения, проблема быстро становится неразрешимой.

Чтобы сделать RL более применимым к реальным приложениям, таким как робототехника, мы предлагаем использовать интеллектуальную процедуру оценки для выбора политики для развертывания, называемую активным выбором автономной политики (A-OPS). В A-OPS мы используем предварительно записанный набор данных и допускаем ограниченное взаимодействие с реальной средой для повышения качества отбора.

Чтобы минимизировать взаимодействие с реальной средой, мы реализуем три ключевые функции:

  1. Оценка политики вне политики, такая как адаптированная Q-оценка (FQE), позволяет нам сделать первоначальное предположение о производительности каждой политики на основе автономного набора данных. Он хорошо коррелирует с фактическими характеристиками во многих средах, включая реальную робототехнику, где он применяется впервые.

Доходность политик моделируется совместно с использованием гауссовского процесса, где наблюдения включают оценки FQE и небольшое количество вновь собранных эпизодических доходов от робота. После оценки одной политики мы получаем знания обо всех политиках, поскольку их распределение коррелируется через ядро ​​между парами политик. Ядро предполагает, что если политики предпринимают схожие действия – например, перемещают роботизированный захват в одинаковом направлении – они, как правило, имеют одинаковую отдачу.

  1. Чтобы повысить эффективность данных, мы применяем байесовскую оптимизацию и отдаем приоритет более перспективным политикам, которые будут оцениваться в первую очередь, а именно тем, которые имеют высокую прогнозируемую производительность и большую дисперсию.

Мы продемонстрировали эту процедуру в ряде сред в нескольких областях: dm-control, Atari, симуляция и реальная робототехника. Использование A-OPS быстро уменьшает сожаления, и при умеренном количестве оценок политики мы определяем лучшую политику.

Наши результаты показывают, что можно сделать эффективный выбор автономной политики с небольшим количеством взаимодействий со средой, используя автономные данные, специальное ядро ​​и байесовскую оптимизацию. Код для A-OPS имеет открытый исходный код и доступен на GitHub с примером набора данных, чтобы попробовать.

LEAVE A REPLY

Please enter your comment!
Please enter your name here