Исследовать
Люди — интерактивный вид. Мы взаимодействуем с физическим миром и друг с другом. Чтобы искусственный интеллект (ИИ) был в целом полезным, он должен уметь умело взаимодействовать с людьми и окружающей их средой. В этой работе мы представляем Мультимодальный интерактивный агент (MIA), который сочетает в себе визуальное восприятие, понимание и производство языка, навигацию и манипулирование для участия в расширенных и часто неожиданных физических и языковых взаимодействиях с людьми.
Мы опираемся на подход, предложенный Абрамсоном и др. (2020), который в основном использует имитационное обучение для обучения агентов. После обучения МВД демонстрирует элементарное разумное поведение, которое мы надеемся позже усовершенствовать с помощью обратной связи с людьми. Эта работа сосредоточена на создании этого интеллектуального поведенческого априора, и мы оставляем дальнейшее обучение на основе обратной связи для будущей работы.
Мы создали среду Playhouse, виртуальную трехмерную среду, состоящую из случайного набора комнат и большого количества домашних интерактивных объектов, чтобы предоставить людям и агентам пространство и условия для совместного взаимодействия. Люди и агенты могут взаимодействовать в Театре, управляя виртуальными роботами, которые передвигаются, манипулируют объектами и общаются посредством текста. Эта виртуальная среда допускает широкий спектр диалогов, начиная от простых инструкций (например, «Пожалуйста, поднимите книгу с пола и поместите ее на синюю книжную полку») до творческой игры (например, «Принесите еду на стол, чтобы мы можем поесть»).
Мы собрали человеческие примеры взаимодействия в Playhouse с помощью языковых игр — набора сигналов, побуждающих людей импровизировать определенное поведение. В языковой игре один игрок (установщик) получает заранее написанную подсказку с указанием типа задачи, которую следует предложить другому игроку (решателю). Например, сеттер может получить подсказку «Задайте другому игроку вопрос о существовании объекта», а после некоторого исследования сеттер может спросить: «Скажите, пожалуйста, есть ли в комнате синяя утка, в которой есть не иметь никакой мебели». Чтобы обеспечить достаточное поведенческое разнообразие, мы также включили подсказки в свободной форме, которые давали сеттерам свободу выбора для импровизации взаимодействия (например, «Теперь возьмите любой предмет, который вам нравится, и ударьте теннисным мячом по табуретке так, чтобы он катится возле часов или где-то рядом с ними.”). В общей сложности мы собрали данные о человеческих взаимодействиях в Театре в реальном времени за 2,94 года.
Наша стратегия обучения представляет собой комбинацию контролируемого прогнозирования действий человека (поведенческого клонирования) и самостоятельного обучения. При прогнозировании действий человека мы обнаружили, что использование иерархической стратегии управления значительно повышает производительность агентов. В этом случае агент получает новые наблюдения примерно 4 раза в секунду. Для каждого наблюдения он создает последовательность действий движения с разомкнутым контуром и, при необходимости, выдает последовательность языковых действий. В дополнение к поведенческому клонированию мы используем форму самоконтролируемого обучения, которая ставит перед агентами задачу классифицировать, принадлежат ли определенные зрительные и языковые входные данные к одному и тому же или разным эпизодам.
Чтобы оценить производительность агентов, мы попросили участников-людей взаимодействовать с агентами и предоставить двоичную обратную связь, показывающую, успешно ли агент выполнил инструкцию. MIA достигает более 70% успеха в онлайн-взаимодействиях с участием людей, что составляет 75% от уровня успеха, которого достигают сами люди, играя в роли решателей. Чтобы лучше понять роль различных компонентов МВД, мы выполнили серию абляций, удалив, например, визуальные или языковые входные данные, потерю самоконтроля или иерархический контроль.
Современные исследования машинного обучения выявили замечательные закономерности производительности в зависимости от различных параметров масштаба; в частности, производительность модели масштабируется по степенному закону в зависимости от размера набора данных, размера модели и вычислительных ресурсов. Эти эффекты наиболее четко заметны в языковой области, которая характеризуется огромными размерами наборов данных и высокоразвитыми архитектурами и протоколами обучения. Однако в этой работе мы находимся в совершенно ином режиме – со сравнительно небольшими наборами данных и мультимодальными, многозадачными целевыми функциями, обучающими гетерогенные архитектуры. Тем не менее, мы демонстрируем явный эффект масштабирования: по мере увеличения размера набора данных и модели производительность заметно возрастает.
В идеальном случае обучение становится более эффективным при наличии достаточно большого набора данных, поскольку знания передаются между опытами. Чтобы выяснить, насколько идеальны наши обстоятельства, мы изучили, сколько данных необходимо, чтобы научиться взаимодействовать с новым, ранее невиданным объектом и научиться следовать новой, ранее неслыханной команде/глаголу. Мы разделили наши данные на фоновые данные и данные, включающие языковую инструкцию, относящуюся к объекту или глаголу. Когда мы повторно представили данные, относящиеся к новому объекту, мы обнаружили, что менее 12 часов человеческого взаимодействия было достаточно для достижения максимальной производительности. Аналогично, когда мы ввели новую команду или глагол «очистить» (т.е. убрать все объекты с поверхности), мы обнаружили, что всего 1 часа человеческих демонстраций было достаточно, чтобы достичь максимальной производительности в задачах, связанных с этим словом.
МВД демонстрирует поразительно богатое поведение, в том числе разнообразие действий, которые не были заранее задуманы исследователями, включая уборку комнаты, поиск нескольких заданных объектов и задание уточняющих вопросов, когда инструкция двусмысленна. Эти взаимодействия постоянно вдохновляют нас. Однако неопределенность поведения МВД представляет собой огромные проблемы для количественной оценки. Разработка комплексных методологий для сбора и анализа открытого поведения во взаимодействиях человека и агента станет важным направлением нашей будущей работы.
Более подробное описание нашей работы смотрите в нашем бумага.