Исследовать
Исследование, движимое любопытством, — это активный процесс поиска новой информации для улучшения понимания агентом окружающей среды. Предположим, что агент изучил модель мира, которая может предсказывать будущие события, учитывая историю прошлых событий. Агент, движимый любопытством, может затем использовать несоответствие прогнозов модели мира как внутреннюю награду за направление своей исследовательской политики на поиск новой информации. Таким образом, агент может затем использовать эту новую информацию для улучшения самой модели мира, чтобы она могла делать более точные прогнозы. Этот итеративный процесс может позволить агенту в конечном итоге изучить каждую новинку в мире и использовать эту информацию для построения точной модели мира.
Вдохновленный успехами запустите свое собственное скрытое (BYOL) – который применялся в компьютерное зрение, обучение графическому представлениюи обучение представлению в RL – мы предлагаем BYOL-Explore: концептуально простой, но общий, движимый любопытством ИИ-агент для решения сложных исследовательских задач. BYOL-Explore изучает представление мира, предсказывая свое собственное будущее представление. Затем он использует ошибку прогноза на уровне представления в качестве внутреннего вознаграждения для обучения политике, основанной на любопытстве. Таким образом, BYOL-Explore изучает представление мира, динамику мира и политику исследования, основанную на любопытстве, просто путем оптимизации ошибки прогнозирования на уровне представления.
Несмотря на простоту конструкции, применительно к ДМ-ХАРД-8 набор сложных трехмерных, визуально сложных и трудных исследовательских задач, BYOL-Explore превосходит стандартные методы исследования, основанные на любопытстве, такие как Случайная дистилляция сети (РНД) и Модуль внутреннего любопытства (ICM) в виде среднего балла, нормализованного для человека (CHNS), измеренного по всем заданиям. Примечательно, что BYOL-Explore достиг такой производительности, используя только одну сеть, одновременно обучаемую всем задачам, тогда как предыдущая работа была ограничена настройкой одной задачи и могла добиться значимого прогресса в решении этих задач только при условии демонстрации экспертами-людьми.
Еще одним доказательством своей универсальности является то, что BYOL-Explore достигает сверхчеловеческих результатов в десяти самых сложных исследованиях. Атари игрыимея при этом более простую конструкцию, чем другие конкурентные агенты, такие как Агент57 и Перейти-Исследовать.
Двигаясь вперед, мы можем обобщить BYOL-Explore на высокостохастические среды, изучив вероятностную модель мира, которую можно использовать для создания траекторий будущих событий. Это может позволить агенту моделировать возможную стохастичность окружающей среды, избегать стохастических ловушек и планировать исследования.