Home Технологии Имитация интерактивного интеллекта | DeepTech

Имитация интерактивного интеллекта | DeepTech

0
Имитация интерактивного интеллекта
 | DeepTech

В начале любого исследования искусственного интеллекта необходимо ответить на два вопроса. Что мы хотим, чтобы системы ИИ делали? И как мы будем оценивать, когда мы продвигаемся к этой цели? Алан Тьюринг в своей основополагающей статье, описывающей тест Тьюринга, который он более скромно назвал игрой в имитацию, утверждал, что для определенного вида ИИ эти вопросы могут быть одними и теми же. Грубо говоря, если поведение ИИ напоминает человеческий интеллект, когда человек взаимодействует с ним, то ИИ прошел тест и может быть назван разумным. ИИ, предназначенный для взаимодействия с людьми, следует тестировать посредством взаимодействия с людьми.

В то же время взаимодействие — это не только проверка интеллекта, но и смысл. Чтобы агенты ИИ были в целом полезными, они должны помогать нам в различных действиях и общаться с нами естественным образом. В научной фантастике видение роботов, с которыми мы можем говорить, является обычным явлением. И интеллектуальные цифровые агенты, которые могут помочь выполнить большое количество задач, были бы в высшей степени полезными. Поэтому, чтобы воплотить эти устройства в жизнь, мы должны изучить проблему создания агентов, способных эффективно взаимодействовать с людьми и производить действия в богатом мире.

Создание агентов, которые могут взаимодействовать с людьми и миром, ставит ряд важных задач. Как мы можем предоставить соответствующие обучающие сигналы, чтобы научить искусственных агентов таким способностям? Как мы можем оценить эффективность разрабатываемых нами агентов, если сам язык неоднозначен и абстрактен? Так же, как аэродинамическая труба связана с конструкцией самолета, мы создали виртуальную среду для исследования способов создания взаимодействующих агентов.

Сначала мы создаем симулированную среду, игровую комнату, в которой виртуальные роботы могут участвовать во множестве интересных взаимодействий, перемещаясь, манипулируя объектами и разговаривая друг с другом. Размеры игровой комнаты могут быть случайными, как и расположение полок, мебели, ориентиров, таких как окна и двери, а также ассортимент детских игрушек и предметов домашнего обихода. Разнообразие окружающей среды позволяет взаимодействиям, включающим рассуждения о пространстве и объектных отношениях, двусмысленность ссылок, сдерживание, построение, поддержку, окклюзию, частичную наблюдаемость. Мы встроили двух агентов в игровую комнату, чтобы обеспечить социальное измерение для изучения совместной интенциональности, сотрудничества, передачи личных знаний и так далее.

Агенты взаимодействуют в игровой комнате. Синий агент приказывает желтому агенту «положить вертолет в коробку».
Конфигурация игровой комнаты рандомизирована для создания разнообразия при сборе данных.

Мы используем ряд парадигм обучения для создания агентов, которые могут взаимодействовать с людьми, включая имитационное обучение, обучение с подкреплением, контролируемое и неконтролируемое обучение. Как, возможно, и предполагал Тьюринг, называя «игрой в имитацию», возможно, самый прямой путь к созданию агентов, способных взаимодействовать с людьми, — это имитация человеческого поведения. Большие наборы данных о человеческом поведении вместе с алгоритмами имитации обучения на основе этих данных сыграли важную роль в создании агентов, которые могут взаимодействовать с текстовым языком или играть в игры. Для основанных языковых взаимодействий у нас нет легкодоступного, ранее существовавшего источника данных о поведении, поэтому мы создали систему для выявления взаимодействий между людьми-участниками, взаимодействующими друг с другом. Эти взаимодействия были вызваны, прежде всего, побуждением одного из игроков с подсказкой импровизировать инструкцию, например, «Попросите другого игрока расположить что-то относительно чего-то другого». Некоторые интерактивные подсказки включают в себя вопросы, а также инструкции, например «Попросите другого игрока описать, где что-то находится». В общей сложности мы собрали больше года человеческих взаимодействий в реальном времени в этом сеттинге.

Каждый из наших агентов потребляет изображения и язык в качестве входных данных и производит физические и языковые действия в качестве выходных данных. Мы построили модели вознаграждения с теми же входными параметрами.
Слева: в течение двух минут два игрока (устанавливающий и решающий) двигаются, оглядываются, берут и бросают предметы и говорят. Справа: связующему предлагается «Попросить другого игрока что-нибудь поднять». Сеттер инструктирует агента решателя «Поднять плоскость, которая находится перед обеденным столом». Агент решателя находит правильный объект и выполняет задачу.

Имитационное обучение, обучение с подкреплением и вспомогательное обучение (состоящее из контролируемого и неконтролируемого репрезентативного обучения) интегрированы в форму интерактивной игры с самим собой, которая имеет решающее значение для создания наших лучших агентов. Такие агенты могут выполнять команды и отвечать на вопросы. Мы называем этих агентов «решателями». Но наши агенты также могут давать команды и задавать вопросы. Мы называем таких агентов «сеттерами». Сеттеры в интерактивном режиме ставят задачи перед решателями, чтобы получить лучшие решатели. Однако после обучения агентов люди могут играть роль сеттеров и взаимодействовать с агентами-решателями.

На человеческих демонстрациях мы обучаем политикам, используя комбинацию контролируемого обучения (поведенческого клонирования), обратного RL для вывода моделей вознаграждения и прямого RL для оптимизации политик с использованием предполагаемой модели вознаграждения. Мы используем полуконтролируемые вспомогательные задачи, чтобы помочь сформировать представление как о политике, так и о модели вознаграждения.
Агент-сеттер просит агента-решателя: «Возьми белого робота и положи его на кровать». Агент решателя находит робота и выполняет задачу. Функция вознаграждения, извлеченная из демонстраций, фиксирует ключевые аспекты задачи (синий цвет) и дает меньше вознаграждения (серый цвет), когда те же наблюдения сочетаются с контрфактической инструкцией: «Возьми красного робота и положи его на кровать».

Наши взаимодействия не могут быть оценены так же, как большинство простых задач обучения с подкреплением. Например, нет понятия победы или поражения. Действительно, общение с помощью языка при совместном использовании физической среды вводит удивительное количество абстрактных и неоднозначных понятий. Например, если сеттер просит решатель поместить что-то рядом с чем-то еще, что именно «рядом»? Но точная оценка обученных моделей в стандартизированных условиях — это стержень современного машинного обучения и искусственного интеллекта. Чтобы справиться с этой настройкой, мы разработали различные методы оценки, помогающие диагностировать проблемы и оценивать агентов, включая простое взаимодействие людей с агентами в крупных испытаниях.

Люди оценивали эффективность агентов и других людей в выполнении инструкций в игровой комнате как по выполнению инструкций, так и по задачам с ответами на вопросы. Случайно инициализированные агенты были успешными примерно в 0% случаев. Агент, обученный только контролируемому поведенческому клонированию (B), работал несколько лучше, примерно в 10-20% случаев. Агенты, обученные вспомогательным задачам с частичным наблюдением (B·A), также показали лучшие результаты. Те, кто обучался с контролируемым, полуконтролируемым обучением и обучением с подкреплением с использованием интерактивной самостоятельной игры, были признаны лучшими (BG·A и BGR·A).

Отличительным преимуществом нашей настройки является то, что люди-операторы могут ставить практически бесконечный набор новых задач с помощью языка и быстро понимать компетенции наших агентов. Есть много задач, с которыми они не справляются, но наш подход к созданию ИИ предлагает четкий путь для улучшения в растущем наборе компетенций. Наши методы являются общими и могут применяться везде, где нам нужны агенты, взаимодействующие со сложными средами и людьми.

LEAVE A REPLY

Please enter your comment!
Please enter your name here