Новая модель воплощает видение и язык в действия

Технологии

Новая модель воплощает видение и язык в действия | DeepTech

DEEPTECH

September 19, 2023

Robotic Transformer 2 (RT-2) — это новая модель «видение-язык-действие» (VLA), которая учится как на веб-данных, так и на данных робототехники и переводит эти знания в обобщенные инструкции для управления роботами.

Высокопроизводительные модели визуального языка (VLM) обучаются на наборах данных веб-масштаба, что делает эти системы чрезвычайно эффективными в распознавании визуальных или языковых шаблонов и работе на разных языках. Но чтобы роботы достигли аналогичного уровня компетентности, им необходимо собирать данные о роботах из первых рук по каждому объекту, среде, задаче и ситуации.

В нашем бумагамы представляем Robotic Transformer 2 (RT-2), новую модель «видение-язык-действие» (VLA), которая учится как на веб-данных, так и на данных робототехники, и переводит эти знания в обобщенные инструкции для управления роботами, сохраняя при этом возможности веб-масштаба.

Модель визуального языка (VLM), предварительно обученная на данных веб-масштаба, учится на данных робототехники RT-1, чтобы стать RT-2, моделью визуального языка (VLA), которая может управлять роботом.

Эта работа основана на роботе-трансформере 1. (РТ-1), модель, обученная на многозадачных демонстрациях, которая может изучать комбинации задач и объектов, видимых в роботизированных данных. В частности, в нашей работе использовались демонстрационные данные робота RT-1, которые были собраны с помощью 13 роботов в течение 17 месяцев на офисной кухне.

RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание помимо роботизированных данных, которым он подвергался. Это включает в себя интерпретацию новых команд и реагирование на команды пользователя путем выполнения элементарных рассуждений, таких как рассуждения о категориях объектов или высокоуровневых описаниях.

Мы также показываем, что включение цепочки мыслей позволяет RT-2 выполнять многоэтапные семантические рассуждения, например, решать, какой объект можно использовать в качестве импровизированного молотка (камень) или какой тип напитка лучше всего подойдет уставшему человеку. (энергетический напиток).

Адаптация VLM для роботизированного управления

RT-2 основан на VLM, которые принимают одно или несколько изображений в качестве входных данных и создают последовательность токенов, которые традиционно представляют текст на естественном языке. Такие VLM были успешно обучен на данных веб-масштаба для выполнения таких задач, как визуальный ответ на вопрос, создание подписей к изображениям или распознавание объектов. В своей работе мы адаптируем модель Pathways Language and Image (Пали-Х) и Воплощенная языковая модель Pathways (ПалМ-Э), которые будут служить основой RT-2.

Чтобы управлять роботом, его необходимо научить выводить действия. Мы решаем эту проблему, представляя действия в виде токенов в выходных данных модели (аналогично языковым токенам) и описывая действия как строки, которые могут обрабатываться стандартными методами. токенизаторы естественного языкапоказано здесь:

Представление строки действия, используемой при обучении RT-2. Примером такой строки может быть последовательность номеров жетонов действий робота, например «1 128 91 241 5 101 127 217».

Строка начинается с флага, указывающего, следует ли продолжить или завершить текущий эпизод, без выполнения последующих команд, и следует за командами изменения положения и вращения рабочего органа, а также желаемого выдвижения захвата робота.

Мы используем ту же дискретизированную версию действий робота, что и в RT-1, и показываем, что преобразование ее в строковое представление позволяет обучать модели VLM на роботизированных данных, поскольку входные и выходные пространства таких моделей не должны быть разделены. измененный.

‍

Архитектура и обучение RT-2: мы совместно настраиваем предварительно обученную модель VLM на робототехнике и веб-данных. Полученная модель принимает изображения с камеры робота и напрямую прогнозирует действия, которые должен выполнить робот.

Обобщение и возникающие навыки

Мы провели серию качественных и количественных экспериментов на наших моделях RT-2 в ходе более чем 6000 роботизированных испытаний. Исследуя новые возможности RT-2, мы сначала искали задачи, которые потребуют объединения знаний из сетевых данных и опыта робота, а затем определили три категории навыков: понимание символов, рассуждение и распознавание человека.

Каждая задача требовала понимания визуально-семантических концепций и умения выполнять роботизированное управление для работы с этими концепциями. Такие команды, как «поднять сумку, которая вот-вот упадет со стола» или «переместить банан в сумму два плюс один» — когда роботу предлагается выполнить задачу манипулирования объектами или сценариями, никогда не встречавшимися в роботизированных данных — обязательны. знания, преобразованные из веб-данных в работу.

Примеры возникающих навыков робототехники, которые отсутствуют в данных по робототехнике и требуют передачи знаний в результате предварительного веб-обучения.

Во всех категориях мы наблюдали повышение производительности обобщения (улучшение более чем в 3 раза) по сравнению с предыдущими базовыми показателями, такими как предыдущие модели RT-1 и такие модели, как Visual Cortex (ВК-1), которые были предварительно обучены на больших наборах визуальных данных.

Показатели успешности оценки новых навыков: наши модели RT-2 превосходят как предыдущие базовые модели робототехнического преобразователя (RT-1), так и визуальную предварительную подготовку (VC-1).

Мы также выполнили серию количественных оценок, начиная с первоначальных задач RT-1, для которых у нас есть примеры в данных робота, и продолжили с различной степенью ранее невидимых роботом объектов, фона и окружающей среды, которые требовали от робота изучите обобщение на предварительном обучении VLM.

Примеры ранее невиданных роботом сред, где RT-2 обобщает новые ситуации.

RT-2 сохранил производительность при выполнении первоначальных задач, наблюдаемых в данных робота, и улучшил производительность в ранее неизвестных роботу сценариях с 32% до 62%, как у RT-1, что демонстрирует значительную выгоду от крупномасштабного предварительного обучения.

Кроме того, мы наблюдали значительные улучшения по сравнению с базовыми показателями, предварительно обученными на визуальных задачах, таких как VC-1 и многоразовые представления для роботизированных манипуляций (Р3М) и алгоритмы, использующие VLM для идентификации объектов, такие как Манипулирование объектами открытого мира (МОО).

RT-2 обеспечивает высокую производительность при выполнении видимых задач при распространении и превосходит несколько базовых показателей при выполнении невидимых задач вне распределения.

Оценка нашей модели на открытом исходном коде Языковая таблица набора роботизированных задач, мы достигли 90% успеха в моделировании, что существенно улучшилось по сравнению с предыдущими базовыми показателями, включая БК-З (72%), РТ-1 (74%) и ЛАВА (77%).

Затем мы оценили ту же модель в реальном мире (поскольку она была обучена на моделировании и реальных данных) и продемонстрировали ее способность обобщать новые объекты, как показано ниже, где ни один из объектов, кроме синего куба, не присутствовал в обучении. набор данных.

RT-2 хорошо справляется с задачами языковой таблицы реальных роботов. Ни один из объектов, кроме синего куба, не присутствовал в обучающих данных.

Вдохновлен методы подсказки цепочки мыслей, используемые в LLMмы исследовали наши модели, чтобы объединить роботизированное управление с цепочкой мыслей, чтобы можно было освоить долгосрочное планирование и навыки низкого уровня в рамках одной модели.

В частности, мы доработали вариант RT-2 всего на несколько сотен шагов градиента, чтобы повысить его способность совместно использовать язык и действия. Затем мы дополнили данные, включив в них дополнительный шаг «План», сначала описывающий цель действия, которое робот собирается предпринять, на естественном языке, затем следовали «Действие» и жетоны действий. Здесь мы показываем пример таких рассуждений и результирующее поведение робота:

Цепочка мыслей позволяет изучить автономную модель, которая может как планировать долгосрочные последовательности навыков, так и прогнозировать действия робота.

С помощью этого процесса RT-2 может выполнять более сложные команды, требующие обдумывания промежуточных шагов, необходимых для выполнения инструкции пользователя. Благодаря своей магистрали VLM, RT-2 также может планировать как с помощью графических, так и текстовых команд, обеспечивая визуально обоснованное планирование, тогда как современные подходы «планируй и действуй», такие как SayCan не может видеть реальный мир и полностью полагаться на язык.

Развитие роботизированного управления

RT-2 показывает, что модели визуального языка (VLM) могут быть преобразованы в мощные модели визуального языка-действия (VLA), которые могут напрямую управлять роботом путем объединения предварительного обучения VLM с роботизированными данными.

Благодаря двум реализациям VLA на основе PaLM-E и PaLI-X, RT-2 приводит к значительному улучшению роботизированных политик и, что более важно, к значительному повышению производительности обобщения и новым возможностям, унаследованным от предварительной разработки языка видения в веб-масштабе. -обучение.

RT-2 — это не только простая и эффективная модификация существующих моделей VLM, но и перспективность создания физического робота общего назначения, который сможет рассуждать, решать проблемы и интерпретировать информацию для выполнения широкого спектра задач в реальных условиях. мир.

‍

Адаптация VLM для роботизированного управления

Обобщение и возникающие навыки

Развитие роботизированного управления

LEAVE A REPLY Cancel reply