Создание интерактивных агентов с имитацией обучения

Технологии

Создание интерактивных агентов с имитацией обучения | DeepTech

DEEPTECH

October 30, 2023

Исследовать

Опубликовано: 8 декабря 2021 г.
Авторы: Джош Абрамсон, Арун Ахуджа, Артур Брусси, Федерико Карневале, Мэри Кассен, Феликс Фишер, Петко Георгиев, Алекс Голдин, Тим Харли, Феликс Хилл, Питер Си Хамфрис, Олден Хунг, Джессика Лэндон, Тимоти Лилликрап, Хамза Мерзич, Алистер Мулдал, Адам Санторо, Гай Скалли, Тамара фон Глен, Грегори Уэйн, Натаниэль Вонг, Чэнь Янь, Руй Чжу, Мэри Кассен, Хамза Мерзич

Люди — интерактивный вид. Мы взаимодействуем с физическим миром и друг с другом. Чтобы искусственный интеллект (ИИ) был в целом полезным, он должен уметь умело взаимодействовать с людьми и окружающей их средой. В этой работе мы представляем Мультимодальный интерактивный агент (MIA), который сочетает в себе визуальное восприятие, понимание и производство языка, навигацию и манипулирование для участия в расширенных и часто неожиданных физических и языковых взаимодействиях с людьми.

Мы опираемся на подход, предложенный Абрамсоном и др. (2020), который в основном использует имитационное обучение для обучения агентов. После обучения МВД демонстрирует элементарное разумное поведение, которое мы надеемся позже усовершенствовать с помощью обратной связи с людьми. Эта работа сосредоточена на создании этого интеллектуального поведенческого априора, и мы оставляем дальнейшее обучение на основе обратной связи для будущей работы.

Мы создали среду Playhouse, виртуальную трехмерную среду, состоящую из случайного набора комнат и большого количества домашних интерактивных объектов, чтобы предоставить людям и агентам пространство и условия для совместного взаимодействия. Люди и агенты могут взаимодействовать в Театре, управляя виртуальными роботами, которые передвигаются, манипулируют объектами и общаются посредством текста. Эта виртуальная среда допускает широкий спектр диалогов, начиная от простых инструкций (например, «Пожалуйста, поднимите книгу с пола и поместите ее на синюю книжную полку») до творческой игры (например, «Принесите еду на стол, чтобы мы можем поесть»).

Мы собрали человеческие примеры взаимодействия в Playhouse с помощью языковых игр — набора сигналов, побуждающих людей импровизировать определенное поведение. В языковой игре один игрок (установщик) получает заранее написанную подсказку с указанием типа задачи, которую следует предложить другому игроку (решателю). Например, сеттер может получить подсказку «Задайте другому игроку вопрос о существовании объекта», а после некоторого исследования сеттер может спросить: «Скажите, пожалуйста, есть ли в комнате синяя утка, в которой есть не иметь никакой мебели». Чтобы обеспечить достаточное поведенческое разнообразие, мы также включили подсказки в свободной форме, которые давали сеттерам свободу выбора для импровизации взаимодействия (например, «Теперь возьмите любой предмет, который вам нравится, и ударьте теннисным мячом по табуретке так, чтобы он катится возле часов или где-то рядом с ними.”). В общей сложности мы собрали данные о человеческих взаимодействиях в Театре в реальном времени за 2,94 года.

Пример двух людей, взаимодействующих в Театре.

Наша стратегия обучения представляет собой комбинацию контролируемого прогнозирования действий человека (поведенческого клонирования) и самостоятельного обучения. При прогнозировании действий человека мы обнаружили, что использование иерархической стратегии управления значительно повышает производительность агентов. В этом случае агент получает новые наблюдения примерно 4 раза в секунду. Для каждого наблюдения он создает последовательность действий движения с разомкнутым контуром и, при необходимости, выдает последовательность языковых действий. В дополнение к поведенческому клонированию мы используем форму самоконтролируемого обучения, которая ставит перед агентами задачу классифицировать, принадлежат ли определенные зрительные и языковые входные данные к одному и тому же или разным эпизодам.

Чтобы оценить производительность агентов, мы попросили участников-людей взаимодействовать с агентами и предоставить двоичную обратную связь, показывающую, успешно ли агент выполнил инструкцию. MIA достигает более 70% успеха в онлайн-взаимодействиях с участием людей, что составляет 75% от уровня успеха, которого достигают сами люди, играя в роли решателей. Чтобы лучше понять роль различных компонентов МВД, мы выполнили серию абляций, удалив, например, визуальные или языковые входные данные, потерю самоконтроля или иерархический контроль.

Современные исследования машинного обучения выявили замечательные закономерности производительности в зависимости от различных параметров масштаба; в частности, производительность модели масштабируется по степенному закону в зависимости от размера набора данных, размера модели и вычислительных ресурсов. Эти эффекты наиболее четко заметны в языковой области, которая характеризуется огромными размерами наборов данных и высокоразвитыми архитектурами и протоколами обучения. Однако в этой работе мы находимся в совершенно ином режиме – со сравнительно небольшими наборами данных и мультимодальными, многозадачными целевыми функциями, обучающими гетерогенные архитектуры. Тем не менее, мы демонстрируем явный эффект масштабирования: по мере увеличения размера набора данных и модели производительность заметно возрастает.

Выполнение сценариев тестирования и оценка человеком результатов масштабирования данных и моделей. В обоих случаях производительность повышается при увеличении размера набора данных и размера модели.

В идеальном случае обучение становится более эффективным при наличии достаточно большого набора данных, поскольку знания передаются между опытами. Чтобы выяснить, насколько идеальны наши обстоятельства, мы изучили, сколько данных необходимо, чтобы научиться взаимодействовать с новым, ранее невиданным объектом и научиться следовать новой, ранее неслыханной команде/глаголу. Мы разделили наши данные на фоновые данные и данные, включающие языковую инструкцию, относящуюся к объекту или глаголу. Когда мы повторно представили данные, относящиеся к новому объекту, мы обнаружили, что менее 12 часов человеческого взаимодействия было достаточно для достижения максимальной производительности. Аналогично, когда мы ввели новую команду или глагол «очистить» (т.е. убрать все объекты с поверхности), мы обнаружили, что всего 1 часа человеческих демонстраций было достаточно, чтобы достичь максимальной производительности в задачах, связанных с этим словом.

При изучении новой команды или объекта производительность агента быстро улучшается всего за несколько часов демонстрационного опыта.

МВД демонстрирует поразительно богатое поведение, в том числе разнообразие действий, которые не были заранее задуманы исследователями, включая уборку комнаты, поиск нескольких заданных объектов и задание уточняющих вопросов, когда инструкция двусмысленна. Эти взаимодействия постоянно вдохновляют нас. Однако неопределенность поведения МВД представляет собой огромные проблемы для количественной оценки. Разработка комплексных методологий для сбора и анализа открытого поведения во взаимодействиях человека и агента станет важным направлением нашей будущей работы.

Более подробное описание нашей работы смотрите в нашем бумага.

LEAVE A REPLY Cancel reply