Новый агент Фонда учится управлять различными роботами-манипуляторами, решает задачи всего за 100 демонстраций и совершенствуется на основе самостоятельно сгенерированных данных.
Роботы быстро входят в нашу повседневную жизнь, но зачастую они запрограммированы только на то, чтобы хорошо выполнять определенные задачи. Хотя использование последних достижений в области ИИ может привести к созданию роботов, которые могут помочь во многих других отношениях, прогресс в создании роботов общего назначения отчасти замедляется из-за времени, необходимого для сбора реальных обучающих данных.
Наша последняя статья представляет самосовершенствующегося агента искусственного интеллекта для робототехники, RoboCat, который учится выполнять множество задач с помощью разных рук, а затем самостоятельно генерирует новые обучающие данные для улучшения своей техники.
В предыдущих исследованиях изучалось, как развивать роботы, которые могут научиться выполнять несколько задач одновременно и объединить понимание языковых моделей с реальными возможностями робота-помощника. RoboCat — первый агент, который решает и адаптируется к множеству задач, используя разных реальных роботов.
RoboCat обучается намного быстрее, чем другие современные модели. Он может подобрать новую задачу всего за 100 демонстраций, поскольку использует большой и разнообразный набор данных. Эта возможность поможет ускорить исследования в области робототехники, поскольку она снижает потребность в обучении под присмотром человека и является важным шагом на пути к созданию универсального робота.
Как RoboCat улучшает себя
RoboCat основан на нашей мультимодальной модели Gato (по-испански «кошка»), которая может обрабатывать язык, изображения и действия как в моделируемой, так и в физической среде. Мы объединили архитектуру Gato с большим обучающим набором последовательностей изображений и действий различных манипуляторов, решающих сотни различных задач.
После этого первого раунда обучения мы запустили RoboCat в цикл обучения «самосовершенствованию» с набором ранее невиданных задач. Изучение каждой новой задачи проходило в пять этапов:
- Соберите 100-1000 демонстраций новой задачи или робота, используя роботизированную руку, управляемую человеком.
- Настройте RoboCat на эту новую задачу/руку, создав специализированного побочного агента.
- Дополнительный агент практикуется с этой новой задачей/рукой в среднем 10 000 раз, генерируя больше обучающих данных.
- Включите демонстрационные данные и самостоятельно сгенерированные данные в существующий набор обучающих данных RoboCat.
- Обучите новую версию RoboCat на новом обучающем наборе данных.
Сочетание всего этого обучения означает, что новейший RoboCat основан на наборе данных из миллионов траекторий как реальных, так и смоделированных роботизированных рук, включая данные, сгенерированные самостоятельно. Мы использовали четыре разных типа роботов и множество роботов-манипуляторов для сбора данных на основе зрения, представляющих задачи, которым Робокот будет обучен.
Учимся управлять новыми роботами-манипуляторами и решать более сложные задачи
Благодаря разнообразному обучению RoboCat научился управлять различными роботизированными руками за несколько часов. Хотя он был обучен работе с руками с двузубыми захватами, он смог приспособиться к более сложной руке с трехпалым захватом и вдвое большим количеством управляемых входов.
После наблюдения за 1000 управляемых человеком демонстраций, собранных всего за несколько часов, RoboCat смог управлять этой новой рукой достаточно ловко, чтобы успешно переключать передачи в 86% случаев. При том же уровне демонстрации он мог адаптироваться для решения задач, сочетающих точность и понимание, таких как извлечение правильного фрукта из миски и решение головоломки соответствия формы, которые необходимы для более сложного управления.
Самосовершенствующийся универсал
RoboCat имеет эффективный цикл обучения: чем больше новых задач он изучает, тем лучше он справляется с дополнительными новыми задачами. Первоначальная версия RoboCat была успешной только в 36% случаев при выполнении ранее неизвестных задач после изучения 500 демонстраций каждой задачи. Но последний RoboCat, обученный более разнообразным задачам, более чем удвоил этот показатель успеха при выполнении одних и тех же задач.
Эти улучшения были связаны с растущим опытом RoboCat, подобно тому, как люди развивают более разнообразные навыки по мере углубления своего обучения в данной области. Способность RoboCat самостоятельно осваивать навыки и быстро самосовершенствоваться, особенно применительно к различным роботизированным устройствам, поможет проложить путь к новому поколению более полезных роботов-агентов общего назначения.