Home Робототехника Более быстрый способ научить робота | DeepTech

Более быстрый способ научить робота | DeepTech

0
Более быстрый способ научить робота
 | DeepTech

Исследователи из Массачусетского технологического института и других стран разработали метод, который позволяет человеку эффективно настроить робота, который не смог выполнить желаемую задачу — например, поднять уникальную кружку — с очень небольшими усилиями со стороны человека. Изображение: Хосе-Луис Оливарес/MIT с изображениями из iStock и The Coop

Адам Зеве | Офис новостей Массачусетского технологического института

Представьте себе покупку робота для выполнения домашних задач. Этот робот был построен и обучен на заводе для выполнения определенного набора задач и никогда не видел предметов в вашем доме. Когда вы попросите его взять кружку с вашего кухонного стола, он может не узнать вашу кружку (возможно, потому, что на этой кружке нарисовано необычное изображение, скажем, талисмана Массачусетского технологического института, бобра Тима). Итак, робот не работает.

«Прямо сейчас, когда мы обучаем этих роботов, когда они терпят неудачу, мы действительно не знаем, почему. Так что вы просто разводили руками и говорили: «Хорошо, думаю, нам нужно начать сначала». Критически важным компонентом, которого не хватает в этой системе, является предоставление роботу возможности продемонстрировать, почему он выходит из строя, чтобы пользователь мог дать ему обратную связь», — говорит он. Энди Пэнаспирант Массачусетского технологического института по электротехнике и информатике (EECS).

Пэн и ее сотрудники из Массачусетского технологического института, Нью-Йоркского университета и Калифорнийского университета в Беркли. создал рамки Это позволяет людям быстро научить робота тому, что они хотят, с минимальными усилиями.

Когда робот выходит из строя, система использует алгоритм для генерации контрфактических объяснений, описывающих, что нужно изменить, чтобы робот преуспел. Например, возможно, робот смог бы поднять кружку, если бы кружка была определенного цвета. Он показывает эти контрфакты человеку и запрашивает обратную связь о том, почему робот потерпел неудачу. Затем система использует эту обратную связь и контрфактические объяснения для создания новых данных, которые она использует для точной настройки робота.

Тонкая настройка включает в себя настройку модели машинного обучения, которая уже была обучена для выполнения одной задачи, чтобы она могла выполнять вторую аналогичную задачу.

Исследователи проверили эту технику на симуляциях и обнаружили, что она может обучать робота более эффективно, чем другие методы. Роботы, обученные с помощью этого фреймворка, работали лучше, а процесс обучения отнимал меньше времени у человека.

Эта структура может помочь роботам быстрее учиться в новых условиях, не требуя от пользователя технических знаний. В долгосрочной перспективе это может стать шагом к тому, чтобы роботы общего назначения могли эффективно выполнять повседневные задачи для пожилых людей или людей с ограниченными возможностями в различных условиях.

К Пэну, ведущему автору, присоединились соавторы Авив Нетаньяху, аспирант EECS; Марк Хо, доцент Технологического института Стивенса; Тяньминь Шу, постдоктор Массачусетского технологического института; Андреа Бобу, аспирант Калифорнийского университета в Беркли; и старшие авторы Джули Шахпрофессор аэронавтики и астронавтики Массачусетского технологического института и директор группы интерактивной робототехники в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и Пулкит Агравалпрофессор ЦГАИЛ. Исследование будет представлено на Международной конференции по машинному обучению.

На рабочих курсах

Роботы часто выходят из строя из-за смещения распределения — роботу представляют объекты и пространства, которых он не видел во время обучения, и он не понимает, что делать в этой новой среде.

Одним из способов переобучения робота для выполнения конкретной задачи является имитационное обучение. Пользователь мог продемонстрировать правильное задание, чтобы научить робота, что делать. Если пользователь попытается научить робота брать кружку, но продемонстрирует это с белой кружкой, робот может узнать, что все кружки белые. Затем он может не подобрать красную, синюю или коричневую кружку «Тим-Бобр».

Чтобы научить робота распознавать кружку как кружку, независимо от ее цвета, могут потребоваться тысячи демонстраций.

«Я не хочу проводить демонстрации с 30 000 кружек. Я хочу продемонстрировать только с одной кружкой. Но затем мне нужно научить робота, чтобы он понял, что может поднять кружку любого цвета», — говорит Пэн.

Для этого система исследователей определяет, какой конкретный объект интересует пользователя (кружка), а какие элементы не важны для задачи (возможно, цвет кружки не имеет значения). Он использует эту информацию для создания новых синтетических данных путем изменения этих «неважных» визуальных концепций. Этот процесс известен как увеличение данных.

Структура имеет три шага. Во-первых, он показывает задачу, которая привела к сбою робота. Затем он получает от пользователя демонстрацию желаемых действий и генерирует контрфактуалы, просматривая все функции в пространстве, которые показывают, что нужно изменить для успеха робота.

Система показывает эти контрфакты пользователю и запрашивает обратную связь, чтобы определить, какие визуальные концепции не влияют на желаемое действие. Затем он использует эту человеческую обратную связь для создания множества новых расширенных демонстраций.

Таким образом, пользователь мог продемонстрировать, как он берет одну кружку, но система будет производить демонстрации, показывающие желаемое действие с тысячами разных кружек, изменяя цвет. Он использует эти данные для тонкой настройки робота.

По словам Пэна, создание контрфактических объяснений и получение обратной связи от пользователя имеют решающее значение для успеха этой техники.

От человеческого мышления к мышлению робота

Поскольку их работа направлена ​​на то, чтобы поместить человека в цикл обучения, исследователи проверили свою технику на людях-пользователях. Сначала они провели исследование, в ходе которого спрашивали людей, помогают ли им контрфактуальные объяснения определить элементы, которые можно изменить, не влияя на задачу.

«Это было так ясно с самого начала. Люди так хороши в этом типе контрфактических рассуждений. И именно этот контрфактический шаг позволяет перевести человеческие рассуждения в рассуждения роботов таким образом, чтобы это имело смысл», — говорит она.

Затем они применили свою структуру к трем симуляциям, в которых перед роботами стояли задачи: навигация к целевому объекту, взятие ключа и отпирание двери, а также взятие желаемого объекта и размещение его на столе. В каждом случае их метод позволял роботу учиться быстрее, чем при использовании других методов, при этом от пользователей требовалось меньше демонстраций.

Двигаясь вперед, исследователи надеются протестировать эту структуру на реальных роботах. Они также хотят сосредоточиться на сокращении времени, необходимого системе для создания новых данных с использованием генеративных моделей машинного обучения.

«Мы хотим, чтобы роботы делали то же, что и люди, и мы хотим, чтобы они делали это семантически значимым образом. Люди склонны действовать в этом абстрактном пространстве, где они не думают о каждом отдельном свойстве изображения. В конце концов, на самом деле речь идет о том, чтобы дать роботу возможность изучить хорошее, похожее на человека представление на абстрактном уровне», — говорит Пэн.

Это исследование частично поддерживается стипендией National Science Foundation Graduate Research Fellowship, Open Philanthropy, стипендией Apple AI/ML, Hyundai Motor Corporation, MIT-IBM Watson AI Lab и Институтом искусственного интеллекта и фундаментальных исследований Национального научного фонда. Взаимодействия.


Новости Массачусетского технологического института

LEAVE A REPLY

Please enter your comment!
Please enter your name here