Изучение надежной передачи культуры в режиме реального времени без человеческих данных

Технологии

Изучение надежной передачи культуры в режиме реального времени без человеческих данных | DeepTech

DEEPTECH

October 29, 2023

Исследовать

Опубликовано: 3 марта 2022 г.
Авторы: Группа общей разведки культуры

За тысячелетия человечество открыло, развило и накопило богатство культурных знаний: от навигационных маршрутов до математики, социальных норм и произведений искусства. Культурная передача, определяемая как эффективная передача информации от одного человека к другому, представляет собой процесс наследования, лежащий в основе экспоненциального роста человеческих способностей.

Наш агент (синий цвет) имитирует и запоминает демонстрацию как ботов (слева), так и людей (справа), красного цвета.

Чтобы увидеть больше видеороликов о работе наших агентов, посетите наш Веб-сайт.

В этой работе мы используем глубокое обучение с подкреплением для создания искусственных агентов, способных передавать культуру во время испытаний. После обучения наши агенты могут делать выводы и вспоминать навигационные знания, продемонстрированные экспертами. Эта передача знаний происходит в реальном времени и обобщает огромное количество ранее невиданных задач. Например, наши агенты могут быстро освоить новое поведение, наблюдая за единственной человеческой демонстрацией, даже не тренируясь на человеческих данных.

Краткое описание нашей среды обучения с подкреплением. Задачи являются навигационными представителями широкого класса человеческих навыков, которые требуют определенных последовательностей стратегических решений, таких как приготовление пищи, нахождение пути и решение проблем.

Мы обучаем и тестируем наших агентов в процедурно генерируемых трехмерных мирах, содержащих красочные сферические цели, окруженные шумной местностью, полной препятствий. Игрок должен перемещаться по целям в правильном порядке, который меняется случайным образом в каждом эпизоде. Поскольку порядок невозможно угадать, наивная стратегия исследования влечет за собой большой штраф. В качестве источника культурно передаваемой информации мы предоставляем привилегированного «бота», который всегда вводит цели в правильной последовательности.

Наш агент MEDAL(-ADR) превосходит абляцию на сложных задачах, в мирах без препятствий (вверху) и с препятствиями (внизу).

С помощью абляции мы определяем минимальный достаточный «стартовый набор» обучающих ингредиентов, необходимых для возникновения культурной передачи, получивший название MEDAL-ADR. Эти компоненты включают память (M), отсев эксперта (ED), смещение внимания к эксперту (AL) и автоматическую рандомизацию домена (ADR). Наш агент превосходит абляцию, в том числе современный метод (ME-AL), в ряде сложных задач. Культурная передача на удивление хорошо распространяется за пределы распространения, и агент вспоминает демонстрации еще долго после ухода эксперта. Заглянув в мозг агента, мы обнаруживаем поразительно интерпретируемые нейроны, ответственные за кодирование социальной информации и целевых состояний.

Наш агент осуществляет обобщение за пределами обучающего распределения (вверху) и обладает отдельными нейронами, кодирующими социальную информацию (внизу).

Таким образом, мы предоставляем процедуру обучения агента, способного к гибкой, запоминающейся передаче культурных данных в реальном времени, без использования человеческих данных в процессе обучения. Это открывает путь к культурной эволюции как алгоритму разработки более разумных искусственных агентов.

Примечания авторов основаны на совместной работе Группы общей разведки по культуре: Авишкар Бхупчанд, Бетани Браунфилд, Адриан Коллистер, Агустин Даль Лаго, Эшли Эдвардс, Ричард Эверетт, Александр Фрешетт, Эдвард Хьюз, Кори В. Мэтьюсон, Пьермария Мендоликкио, Янко Оливейра, Джулия Павар, Мируна Пислар, Алекс Платонов, Эван Сентер, Сухдип Сингх, Александр Захерл и Лэй М. Чжан.

Прочитать полную версию статьи здесь.

LEAVE A REPLY Cancel reply