Обучение надежной культурной передаче в реальном времени без человеческих данных

Технологии

Обучение надежной культурной передаче в реальном времени без человеческих данных | DeepTech

DEEPTECH

July 17, 2023

На протяжении тысячелетий человечество открывало, развивало и накапливало огромное количество культурных знаний, от навигационных путей до математики и социальных норм и произведений искусства. Культурная передача, определяемая как эффективная передача информации от одного человека к другому, является процессом наследования, лежащим в основе этого экспоненциального увеличения человеческих возможностей.

Наш агент (синий) имитирует и запоминает демонстрацию как ботов (слева), так и людей (справа) (красный).

Чтобы увидеть больше видео наших агентов в действии, посетите наш Веб-сайт.

В этой работе мы используем глубокое обучение с подкреплением для создания искусственных агентов, способных к культурной передаче во время тестирования. После обучения наши агенты могут делать выводы и вспоминать навигационные знания, продемонстрированные экспертами. Эта передача знаний происходит в режиме реального времени и распространяется на огромное количество ранее невиданных задач. Например, наши агенты могут быстро обучаться новому поведению, наблюдая за демонстрацией одного человека, даже не обучаясь на данных о людях.

Краткое изложение нашей среды обучения с подкреплением. Задачи представляют собой навигационные представители широкого класса человеческих навыков, которые требуют определенной последовательности стратегических решений, таких как приготовление пищи, поиск пути и решение проблем.

Мы обучаем и тестируем наших агентов в процедурно сгенерированных трехмерных мирах, содержащих красочные сферические цели, встроенные в шумную местность, полную препятствий. Игрок должен перемещаться по целям в правильном порядке, который меняется случайным образом в каждом эпизоде. Поскольку порядок невозможно угадать, наивная стратегия исследования влечет за собой большой штраф. В качестве источника культурно передаваемой информации мы предоставляем привилегированного «бота», который всегда вводит цели в правильной последовательности.

Наш агент MEDAL(-ADR) превосходит аблацию на невыполненных заданиях, в мирах без препятствий (вверху) и с препятствиями (внизу).

С помощью абляции мы определяем минимальный достаточный «стартовый набор» тренировочных ингредиентов, необходимых для возникновения культурной передачи, получивший название MEDAL-ADR. Эти компоненты включают память (M), выпадение эксперта (ED), смещение внимания к эксперту (AL) и автоматическую рандомизацию домена (ADR). Наш агент превосходит аблацию, в том числе современный метод (ME-AL), в ряде сложных задач. Культурная передача на удивление хорошо обобщается вне распространения, и агент вспоминает демонстрации еще долго после ухода эксперта. Заглянув в мозг агента, мы обнаруживаем поразительно поддающиеся интерпретации нейроны, ответственные за кодирование социальной информации и целевых состояний.

Наш агент обобщает вне обучающего распределения (вверху) и обладает отдельными нейронами, кодирующими социальную информацию (внизу).

Таким образом, мы предоставляем процедуру обучения агента, способного к гибкой, высокопроизводительной передаче культурных данных в реальном времени без использования человеческих данных в конвейере обучения. Это прокладывает путь к культурной эволюции как алгоритму разработки более интеллектуальных искусственных агентов.

Эти заметки авторов основаны на совместной работе Группы культурной общей разведки: Авишкар Бхопчанд, Бетани Браунфилд, Адриан Коллистер, Агустин Дал Лаго, Эшли Эдвардс, Ричард Эверетт, Александр Фрешетт, Эдвард Хьюз, Кори В. Мэтьюсон, Пьермария Мендоликкио, Янко Оливейра, Джулия Павар, Мируна Пислар, Алекс Платонов, Эван Сентер, Сукхдип Сингх, Александр Зачерл и Лей М. Чжан.

‍

Читать полностью здесь.

LEAVE A REPLY Cancel reply