Home Технологии RoboCat: Самосовершенствующийся робот-агент | DeepTech

RoboCat: Самосовершенствующийся робот-агент | DeepTech

0
RoboCat: Самосовершенствующийся робот-агент
 | DeepTech

Новый агент Фонда учится управлять различными роботами-манипуляторами, решает задачи всего за 100 демонстраций и совершенствуется на основе самостоятельно сгенерированных данных.

Роботы быстро входят в нашу повседневную жизнь, но зачастую они запрограммированы только на то, чтобы хорошо выполнять определенные задачи. Хотя использование последних достижений в области ИИ может привести к созданию роботов, которые могут помочь во многих других отношениях, прогресс в создании роботов общего назначения отчасти замедляется из-за времени, необходимого для сбора реальных обучающих данных.

Наша последняя статья представляет самосовершенствующегося агента искусственного интеллекта для робототехники, RoboCat, который учится выполнять множество задач с помощью разных рук, а затем самостоятельно генерирует новые обучающие данные для улучшения своей техники.

В предыдущих исследованиях изучалось, как развивать роботы, которые могут научиться выполнять несколько задач одновременно и объединить понимание языковых моделей с реальными возможностями робота-помощника. RoboCat — первый агент, который решает и адаптируется к множеству задач, используя разных реальных роботов.

RoboCat обучается намного быстрее, чем другие современные модели. Он может подобрать новую задачу всего за 100 демонстраций, поскольку использует большой и разнообразный набор данных. Эта возможность поможет ускорить исследования в области робототехники, поскольку она снижает потребность в обучении под присмотром человека и является важным шагом на пути к созданию универсального робота.

Как RoboCat улучшает себя

RoboCat основан на нашей мультимодальной модели Gato (по-испански «кошка»), которая может обрабатывать язык, изображения и действия как в моделируемой, так и в физической среде. Мы объединили архитектуру Gato с большим обучающим набором последовательностей изображений и действий различных манипуляторов, решающих сотни различных задач.

После этого первого раунда обучения мы запустили RoboCat в цикл обучения «самосовершенствованию» с набором ранее невиданных задач. Изучение каждой новой задачи проходило в пять этапов:

  1. Соберите 100-1000 демонстраций новой задачи или робота, используя роботизированную руку, управляемую человеком.
  2. Настройте RoboCat на эту новую задачу/руку, создав специализированного побочного агента.
  3. Дополнительный агент практикуется с этой новой задачей/рукой в ​​среднем 10 000 раз, генерируя больше обучающих данных.
  4. Включите демонстрационные данные и самостоятельно сгенерированные данные в существующий набор обучающих данных RoboCat.
  5. Обучите новую версию RoboCat на новом обучающем наборе данных.
Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные для обучения.

Сочетание всего этого обучения означает, что новейший RoboCat основан на наборе данных из миллионов траекторий как реальных, так и смоделированных роботизированных рук, включая данные, сгенерированные самостоятельно. Мы использовали четыре разных типа роботов и множество роботов-манипуляторов для сбора данных на основе зрения, представляющих задачи, которым Робокот будет обучен.

RoboCat учится на различных типах обучающих данных и задачах: видеоролики о том, как настоящая рука робота поднимает шестерни, смоделированная рука, укладывающая блоки, и RoboCat, использующий руку робота для сбора огурца.

Учимся управлять новыми роботами-манипуляторами и решать более сложные задачи

Благодаря разнообразному обучению RoboCat научился управлять различными роботизированными руками за несколько часов. Хотя он был обучен работе с руками с двузубыми захватами, он смог приспособиться к более сложной руке с трехпалым захватом и вдвое большим количеством управляемых входов.

Левый: Новым роботом-манипулятором RoboCat научились управлять
Верно: Видео, на котором Робокот использует руку, чтобы поднимать шестеренки

После наблюдения за 1000 управляемых человеком демонстраций, собранных всего за несколько часов, RoboCat смог управлять этой новой рукой достаточно ловко, чтобы успешно переключать передачи в 86% случаев. При том же уровне демонстрации он мог адаптироваться для решения задач, сочетающих точность и понимание, таких как извлечение правильного фрукта из миски и решение головоломки соответствия формы, которые необходимы для более сложного управления.

Примеры задач, к решению которых RoboCat может приспособиться после 500-1000 демонстраций.

Самосовершенствующийся универсал

RoboCat имеет эффективный цикл обучения: чем больше новых задач он изучает, тем лучше он справляется с дополнительными новыми задачами. Первоначальная версия RoboCat была успешной только в 36% случаев при выполнении ранее неизвестных задач после изучения 500 демонстраций каждой задачи. Но последний RoboCat, обученный более разнообразным задачам, более чем удвоил этот показатель успеха при выполнении одних и тех же задач.

Большая разница в производительности между первоначальным RoboCat (один раунд обучения) по сравнению с финальной версией (обширное и разнообразное обучение, включая самосовершенствование) после того, как обе версии были доработаны на 500 демонстрациях ранее невиданных задач.

Эти улучшения были связаны с растущим опытом RoboCat, подобно тому, как люди развивают более разнообразные навыки по мере углубления своего обучения в данной области. Способность RoboCat самостоятельно осваивать навыки и быстро самосовершенствоваться, особенно применительно к различным роботизированным устройствам, поможет проложить путь к новому поколению более полезных роботов-агентов общего назначения.

LEAVE A REPLY

Please enter your comment!
Please enter your name here