Чтобы научить агентов эффективно взаимодействовать с людьми, нам нужно иметь возможность измерять прогресс. Но человеческое взаимодействие сложно, и измерить прогресс сложно. В этой работе мы разработали метод, называемый Стандартизированным набором тестов (STS), для оценки агентов в расширенных во времени мультимодальных взаимодействиях. Мы исследовали взаимодействия, в которых участники-люди просят агентов выполнять задачи и отвечать на вопросы в трехмерной моделируемой среде.
Методология STS помещает агентов в набор поведенческих сценариев, полученных на основе реальных данных о взаимодействии людей. Агенты видят воспроизводимый контекст сценария, получают инструкции, а затем получают управление для завершения взаимодействия в автономном режиме. Эти продолжения агента записываются, а затем отправляются оценщикам для оценки успеха или неудачи. Затем агенты ранжируются в соответствии с долей сценариев, в которых они преуспели.
Многие модели поведения, которые являются второй натурой людей в нашем повседневном взаимодействии, трудно выразить словами и невозможно формализовать. Таким образом, механизм, используемый для решения игр (таких как Atari, Go, DotA и Starcraft) с обучением с подкреплением, не будет работать, когда мы пытаемся научить агентов плавному и успешному взаимодействию с людьми. Например, подумайте о разнице между этими двумя вопросами: «Кто выиграл эту игру в го?» против «На что ты смотришь?» В первом случае мы можем написать фрагмент компьютерного кода, который подсчитывает камни на доске в конце игры и с уверенностью определяет победителя. Во втором случае мы понятия не имеем, как это кодифицировать: ответ может зависеть от говорящих, размера и формы задействованных объектов, шутит ли говорящий и других аспектов контекста, в котором дается высказывание. Люди интуитивно понимают множество важных факторов, участвующих в ответе на этот, казалось бы, обыденный вопрос.
Интерактивная оценка участниками-людьми может служить пробным камнем для понимания эффективности работы агентов, но это шумно и дорого. Трудно контролировать точные инструкции, которые люди дают агентам при взаимодействии с ними для оценки. Этот вид оценки также осуществляется в режиме реального времени, поэтому он слишком медленный, чтобы рассчитывать на быстрый прогресс. Предыдущие работы основывались на косвенных показателях интерактивной оценки. Прокси, такие как потери и заданные по сценарию проверочные задачи (например, «поднимите x», где x выбирается случайным образом из окружающей среды, а функция успеха тщательно создается вручную), полезны для быстрого получения информации об агентах, но на самом деле не коррелируют. то же самое с интерактивным оцениванием. У нашего нового метода есть преимущества, в основном обеспечивающие контроль и скорость для показателей, которые тесно связаны с нашей конечной целью — создать агентов, которые хорошо взаимодействуют с людьми.
Разработка MNIST, ImageNet и других наборов данных, аннотированных человеком, имеет важное значение для прогресса в машинном обучении. Эти наборы данных позволили исследователям обучать и оценивать модели классификации с учетом единовременных затрат человеческого труда. Методика STS направлена на то же самое для исследований взаимодействия человека и агента. Этот метод оценки по-прежнему требует от людей аннотирования продолжений агентов; однако ранние эксперименты показывают, что автоматизация этих аннотаций может быть возможна, что позволит быстро и эффективно автоматически оценивать интерактивные агенты. Тем временем мы надеемся, что другие исследователи смогут использовать эту методологию и дизайн системы для ускорения своих собственных исследований в этой области.