Обучение с подкреплением (RL) за последние годы добилось огромного прогресса в решении реальных проблем, а оффлайновое RL сделало его еще более практичным. Вместо прямого взаимодействия с окружающей средой теперь мы можем обучать множество алгоритмов на основе одного заранее записанного набора данных. Однако мы теряем практические преимущества в эффективности данных автономного RL, когда оцениваем имеющиеся политики.
Например, при обучении роботов-манипуляторов ресурсы роботов обычно ограничены, а обучение многих политик с помощью автономного RL на одном наборе данных дает нам большое преимущество в эффективности данных по сравнению с онлайн-RL. Оценка каждой политики — дорогостоящий процесс, требующий тысячного взаимодействия с роботом. Когда мы выбираем лучший алгоритм, гиперпараметры и ряд этапов обучения, проблема быстро становится неразрешимой.
Чтобы сделать RL более применимым к реальным приложениям, таким как робототехника, мы предлагаем использовать интеллектуальную процедуру оценки для выбора политики для развертывания, называемую активным выбором автономной политики (A-OPS). В A-OPS мы используем предварительно записанный набор данных и допускаем ограниченное взаимодействие с реальной средой для повышения качества отбора.
Чтобы минимизировать взаимодействие с реальной средой, мы реализуем три ключевые функции:
- Оценка политики вне политики, такая как адаптированная Q-оценка (FQE), позволяет нам сделать первоначальное предположение о производительности каждой политики на основе автономного набора данных. Он хорошо коррелирует с фактическими характеристиками во многих средах, включая реальную робототехнику, где он применяется впервые.
Доходность политик моделируется совместно с использованием гауссовского процесса, где наблюдения включают оценки FQE и небольшое количество вновь собранных эпизодических доходов от робота. После оценки одной политики мы получаем знания обо всех политиках, поскольку их распределение коррелируется через ядро между парами политик. Ядро предполагает, что если политики предпринимают схожие действия – например, перемещают роботизированный захват в одинаковом направлении – они, как правило, имеют одинаковую отдачу.
- Чтобы повысить эффективность данных, мы применяем байесовскую оптимизацию и отдаем приоритет более перспективным политикам, которые будут оцениваться в первую очередь, а именно тем, которые имеют высокую прогнозируемую производительность и большую дисперсию.
Мы продемонстрировали эту процедуру в ряде сред в нескольких областях: dm-control, Atari, симуляция и реальная робототехника. Использование A-OPS быстро уменьшает сожаления, и при умеренном количестве оценок политики мы определяем лучшую политику.
Наши результаты показывают, что можно сделать эффективный выбор автономной политики с небольшим количеством взаимодействий со средой, используя автономные данные, специальное ядро и байесовскую оптимизацию. Код для A-OPS имеет открытый исходный код и доступен на GitHub с примером набора данных, чтобы попробовать.