В начале любого исследования искусственного интеллекта необходимо ответить на два вопроса. Что мы хотим, чтобы системы ИИ делали? И как мы будем оценивать, когда мы продвигаемся к этой цели? Алан Тьюринг в своей основополагающей статье, описывающей тест Тьюринга, который он более скромно назвал игрой в имитацию, утверждал, что для определенного вида ИИ эти вопросы могут быть одними и теми же. Грубо говоря, если поведение ИИ напоминает человеческий интеллект, когда человек взаимодействует с ним, то ИИ прошел тест и может быть назван разумным. ИИ, предназначенный для взаимодействия с людьми, следует тестировать посредством взаимодействия с людьми.
В то же время взаимодействие — это не только проверка интеллекта, но и смысл. Чтобы агенты ИИ были в целом полезными, они должны помогать нам в различных действиях и общаться с нами естественным образом. В научной фантастике видение роботов, с которыми мы можем говорить, является обычным явлением. И интеллектуальные цифровые агенты, которые могут помочь выполнить большое количество задач, были бы в высшей степени полезными. Поэтому, чтобы воплотить эти устройства в жизнь, мы должны изучить проблему создания агентов, способных эффективно взаимодействовать с людьми и производить действия в богатом мире.
Создание агентов, которые могут взаимодействовать с людьми и миром, ставит ряд важных задач. Как мы можем предоставить соответствующие обучающие сигналы, чтобы научить искусственных агентов таким способностям? Как мы можем оценить эффективность разрабатываемых нами агентов, если сам язык неоднозначен и абстрактен? Так же, как аэродинамическая труба связана с конструкцией самолета, мы создали виртуальную среду для исследования способов создания взаимодействующих агентов.
Сначала мы создаем симулированную среду, игровую комнату, в которой виртуальные роботы могут участвовать во множестве интересных взаимодействий, перемещаясь, манипулируя объектами и разговаривая друг с другом. Размеры игровой комнаты могут быть случайными, как и расположение полок, мебели, ориентиров, таких как окна и двери, а также ассортимент детских игрушек и предметов домашнего обихода. Разнообразие окружающей среды позволяет взаимодействиям, включающим рассуждения о пространстве и объектных отношениях, двусмысленность ссылок, сдерживание, построение, поддержку, окклюзию, частичную наблюдаемость. Мы встроили двух агентов в игровую комнату, чтобы обеспечить социальное измерение для изучения совместной интенциональности, сотрудничества, передачи личных знаний и так далее.
Мы используем ряд парадигм обучения для создания агентов, которые могут взаимодействовать с людьми, включая имитационное обучение, обучение с подкреплением, контролируемое и неконтролируемое обучение. Как, возможно, и предполагал Тьюринг, называя «игрой в имитацию», возможно, самый прямой путь к созданию агентов, способных взаимодействовать с людьми, — это имитация человеческого поведения. Большие наборы данных о человеческом поведении вместе с алгоритмами имитации обучения на основе этих данных сыграли важную роль в создании агентов, которые могут взаимодействовать с текстовым языком или играть в игры. Для основанных языковых взаимодействий у нас нет легкодоступного, ранее существовавшего источника данных о поведении, поэтому мы создали систему для выявления взаимодействий между людьми-участниками, взаимодействующими друг с другом. Эти взаимодействия были вызваны, прежде всего, побуждением одного из игроков с подсказкой импровизировать инструкцию, например, «Попросите другого игрока расположить что-то относительно чего-то другого». Некоторые интерактивные подсказки включают в себя вопросы, а также инструкции, например «Попросите другого игрока описать, где что-то находится». В общей сложности мы собрали больше года человеческих взаимодействий в реальном времени в этом сеттинге.
Имитационное обучение, обучение с подкреплением и вспомогательное обучение (состоящее из контролируемого и неконтролируемого репрезентативного обучения) интегрированы в форму интерактивной игры с самим собой, которая имеет решающее значение для создания наших лучших агентов. Такие агенты могут выполнять команды и отвечать на вопросы. Мы называем этих агентов «решателями». Но наши агенты также могут давать команды и задавать вопросы. Мы называем таких агентов «сеттерами». Сеттеры в интерактивном режиме ставят задачи перед решателями, чтобы получить лучшие решатели. Однако после обучения агентов люди могут играть роль сеттеров и взаимодействовать с агентами-решателями.
Наши взаимодействия не могут быть оценены так же, как большинство простых задач обучения с подкреплением. Например, нет понятия победы или поражения. Действительно, общение с помощью языка при совместном использовании физической среды вводит удивительное количество абстрактных и неоднозначных понятий. Например, если сеттер просит решатель поместить что-то рядом с чем-то еще, что именно «рядом»? Но точная оценка обученных моделей в стандартизированных условиях — это стержень современного машинного обучения и искусственного интеллекта. Чтобы справиться с этой настройкой, мы разработали различные методы оценки, помогающие диагностировать проблемы и оценивать агентов, включая простое взаимодействие людей с агентами в крупных испытаниях.
Отличительным преимуществом нашей настройки является то, что люди-операторы могут ставить практически бесконечный набор новых задач с помощью языка и быстро понимать компетенции наших агентов. Есть много задач, с которыми они не справляются, но наш подход к созданию ИИ предлагает четкий путь для улучшения в растущем наборе компетенций. Наши методы являются общими и могут применяться везде, где нам нужны агенты, взаимодействующие со сложными средами и людьми.