RT-2: Новая модель воплощает видение и язык в действия

Технологии

RT-2: Новая модель воплощает видение и язык в действия | DeepTech

DEEPTECH

October 26, 2023

Исследовать

Опубликовано: 28 июля 2023 г.
Авторы: Евгений Чеботарь, Тяньхэ Ю

Роботизированная рука собирает игрушечного динозавра из множества игрушек, продуктов питания и предметов, выставленных на столе.

Robotic Transformer 2 (RT-2) — это новая модель «видение-язык-действие» (VLA), которая учится как на веб-данных, так и на данных робототехники и переводит эти знания в обобщенные инструкции для управления роботами.

Высокопроизводительные модели визуального языка (VLM) обучаются на наборах данных веб-масштаба, что делает эти системы чрезвычайно эффективными в распознавании визуальных или языковых шаблонов и работе на разных языках. Но чтобы роботы достигли аналогичного уровня компетентности, им необходимо собирать данные о роботах из первых рук по каждому объекту, среде, задаче и ситуации.

В нашем бумагамы представляем Robotic Transformer 2 (RT-2), новую модель «видение-язык-действие» (VLA), которая учится как на веб-данных, так и на данных робототехники, и переводит эти знания в обобщенные инструкции для управления роботами, сохраняя при этом возможности веб-масштаба.

Модель визуального языка (VLM), предварительно обученная на данных веб-масштаба, учится на данных робототехники RT-1, чтобы стать RT-2, моделью визуального языка (VLA), которая может управлять роботом.

Эта работа основана на роботе-трансформере 1. (РТ-1), модель, обученная на многозадачных демонстрациях, которая может изучать комбинации задач и объектов, видимых в роботизированных данных. В частности, в нашей работе использовались демонстрационные данные робота RT-1, которые были собраны с помощью 13 роботов в течение 17 месяцев на офисной кухне.

RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание помимо роботизированных данных, которым он подвергался. Это включает в себя интерпретацию новых команд и реагирование на команды пользователя путем выполнения элементарных рассуждений, таких как рассуждения о категориях объектов или высокоуровневых описаниях.

Мы также показываем, что включение цепочки мыслей позволяет RT-2 выполнять многоэтапные семантические рассуждения, например, решать, какой объект можно использовать в качестве импровизированного молотка (камень) или какой тип напитка лучше всего подойдет уставшему человеку. (энергетический напиток).

Адаптация VLM для роботизированного управления

RT-2 основан на VLM, которые принимают одно или несколько изображений в качестве входных данных и создают последовательность токенов, которые традиционно представляют текст на естественном языке. Такие VLM были успешно обучен на данных веб-масштаба для выполнения таких задач, как визуальный ответ на вопрос, создание подписей к изображениям или распознавание объектов. В своей работе мы адаптируем модель Pathways Language and Image (Пали-Х) и Воплощенная языковая модель Pathways (ПалМ-Э), которые будут служить основой RT-2.

Чтобы управлять роботом, его необходимо научить выводить действия. Мы решаем эту проблему, представляя действия в виде токенов в выходных данных модели (аналогично языковым токенам) и описывая действия как строки, которые могут обрабатываться стандартными методами. токенизаторы естественного языкапоказано здесь:

Представление строки действия, используемой при обучении RT-2. Примером такой строки может быть последовательность номеров жетонов действий робота, например «1 128 91 241 5 101 127 217».

Строка начинается с флага, указывающего, следует ли продолжить или завершить текущий эпизод, без выполнения последующих команд, и следует за командами изменения положения и вращения рабочего органа, а также желаемого выдвижения захвата робота.

Мы используем ту же дискретную версию действий робота, что и в RT-1, и показываем, что преобразование ее в строковое представление позволяет обучать модели VLM на роботизированных данных, поскольку входные и выходные пространства таких моделей не должны быть разделены. измененный.

Архитектура и обучение RT-2: мы совместно настраиваем предварительно обученную модель VLM на робототехнике и веб-данных. Полученная модель принимает изображения с камеры робота и напрямую прогнозирует действия, которые должен выполнить робот.

Обобщение и возникающие навыки

Мы провели серию качественных и количественных экспериментов на наших моделях RT-2 в ходе более чем 6000 роботизированных испытаний. Исследуя новые возможности RT-2, мы сначала искали задачи, которые потребуют объединения знаний из сетевых данных и опыта робота, а затем определили три категории навыков: понимание символов, рассуждение и распознавание человека.

Каждая задача требовала понимания визуально-семантических концепций и умения выполнять роботизированное управление для работы с этими концепциями. Такие команды, как «поднять сумку, которая вот-вот упадет со стола» или «переместить банан в сумму два плюс один» — когда роботу предлагается выполнить задачу манипулирования объектами или сценариями, никогда не встречавшимися в роботизированных данных — обязательны. знания, преобразованные из веб-данных в работу.

Примеры возникающих навыков робототехники, которые отсутствуют в данных по робототехнике и требуют передачи знаний в результате предварительного веб-обучения.

Во всех категориях мы наблюдали повышение производительности обобщения (улучшение более чем в 3 раза) по сравнению с предыдущими базовыми показателями, такими как предыдущие модели RT-1 и такие модели, как Visual Cortex (ВК-1), которые были предварительно обучены на больших наборах визуальных данных.

Показатели успешности оценки новых навыков: наши модели RT-2 превосходят как предыдущие базовые модели робототехнического преобразователя (RT-1), так и визуальную предварительную подготовку (VC-1).

Мы также выполнили серию количественных оценок, начиная с первоначальных задач RT-1, для которых у нас есть примеры в данных робота, и продолжили с различной степенью ранее невидимых роботом объектов, фона и окружающей среды, которые требовали от робота изучите обобщение на предварительном обучении VLM.

Примеры ранее невиданных роботом сред, где RT-2 обобщает новые ситуации.

RT-2 сохранил производительность при выполнении первоначальных задач, наблюдаемых в данных робота, и улучшил производительность в ранее неизвестных роботу сценариях с 32% до 62%, как у RT-1, что демонстрирует значительную выгоду от крупномасштабного предварительного обучения.

Кроме того, мы наблюдали значительные улучшения по сравнению с базовыми показателями, предварительно обученными на визуальных задачах, таких как VC-1 и многоразовые представления для роботизированных манипуляций (Р3М) и алгоритмы, использующие VLM для идентификации объектов, такие как Манипулирование объектами открытого мира (МОО).

RT-2 обеспечивает высокую производительность при выполнении видимых задач при распространении и превосходит несколько базовых показателей при выполнении невидимых задач вне распределения.

Оценка нашей модели на открытом исходном коде Языковая таблица набора роботизированных задач, мы достигли 90% успеха в моделировании, что существенно улучшилось по сравнению с предыдущими базовыми показателями, включая БК-З (72%), РТ-1 (74%) и ЛАВА (77%).

Затем мы оценили ту же модель в реальном мире (поскольку она была обучена на моделировании и реальных данных) и продемонстрировали ее способность обобщать новые объекты, как показано ниже, где ни один из объектов, кроме синего куба, не присутствовал в обучении. набор данных.

RT-2 хорошо справляется с задачами языковой таблицы реальных роботов. Ни один из объектов, кроме синего куба, не присутствовал в обучающих данных.

Вдохновлен методы подсказки цепочки мыслей, используемые в LLMмы исследовали наши модели, чтобы объединить роботизированное управление с цепочкой мыслей, чтобы обеспечить возможность обучения долгосрочному планированию и навыкам низкого уровня в рамках одной модели.

В частности, мы доработали вариант RT-2 всего на несколько сотен шагов градиента, чтобы повысить его способность совместно использовать язык и действия. Затем мы дополнили данные, включив в них дополнительный шаг «План», сначала описывающий цель действия, которое робот собирается предпринять, на естественном языке, затем следовали «Действие» и жетоны действий. Здесь мы показываем пример таких рассуждений и результирующее поведение робота:

Цепочка мыслей позволяет изучить автономную модель, которая может как планировать долгосрочные последовательности навыков, так и прогнозировать действия робота.

С помощью этого процесса RT-2 может выполнять более сложные команды, требующие обдумывания промежуточных шагов, необходимых для выполнения инструкции пользователя. Благодаря своей магистрали VLM, RT-2 также может планировать как с помощью графических, так и текстовых команд, что обеспечивает визуально обоснованное планирование, тогда как современные подходы «планируй и действуй», такие как SayCan не может видеть реальный мир и полностью полагаться на язык.

Развитие роботизированного управления

RT-2 показывает, что модели визуального языка (VLM) могут быть преобразованы в мощные модели визуального языка-действия (VLA), которые могут напрямую управлять роботом путем объединения предварительного обучения VLM с роботизированными данными.

Благодаря двум реализациям VLA на основе PaLM-E и PaLI-X, RT-2 приводит к значительному улучшению роботизированных политик и, что более важно, к значительному повышению производительности обобщения и новым возможностям, унаследованным от предварительной разработки языка видения в веб-масштабе. -обучение.

RT-2 — это не только простая и эффективная модификация существующих моделей VLM, но и перспективность создания физического робота общего назначения, который сможет рассуждать, решать проблемы и интерпретировать информацию для выполнения широкого спектра задач в реальных условиях. мир.

Благодарности

Мы хотели бы поблагодарить соавторов этой работы: Энтони Брохана, Ноа Брауна, Джастиса Карбахала, Евгения Чеботара, Си Чена, Кшиштофа Хороманского, Тяньли Дина, Дэнни Дрисса, Авинаву Дубей, Челси Финн, Пита Флоренса, Чуюань Фу, Монтсе. Гонсалес Аренас, Киртана Гопалакришнан, Кехан Хан, Кароль Хаусман, Александр Херцог, Жасмин Сюй, Брайан Иктер, Алекс Ирпан, Нихил Джоши, Райан Джулиан, Дмитрий Калашников, Юхэн Куанг, Изабель Лил, Лиза Ли, Цанг-Вэй Эдвард Ли, Сергей Левин , Яо Лу, Хенрик Михалевски, Игорь Мордач, Карл Перч, Канишка Рао, Криста Рейманн, Майкл Рю, Гресия Салазар, Паннаг Санкети, Пьер Сермане, Джаспиар Сингх, Аникаит Сингх, Раду Сорикут, Хуонг Чан, Винсент Ванхук, Куан Вуонг, Айзаан Вахид, Стефан Велкер, Пол Уолхарт, Цзялин Ву, Фей Ся, Тед Сяо, Пэн Сюй, Сычунь Сюй, Тяньхэ Ю и Брианна Зиткович за вклад в проект, а также Фред Алкобер, Джоди Линн Андрес, Каролина Парада, Джозеф Дабис, Рошель Дела Круз, Джессика Гомес, Гэвин Гонсалес, Джон Гильярд, Томас Джексон, Цзе Тан, Скотт Лерер, Ди М, Утсав Малла, Сара Нгуен, Джейн Парк, Эмили Перес, Элио Прадо, Джорнелл Киамбао, Клэйтон Тан, Джодексти Терлонж, Элеонора Томлинсон, Вэньсюань Чжоу и всей команде Google DeepMind за помощь и отзывы.

Адаптация VLM для роботизированного управления

Обобщение и возникающие навыки

Развитие роботизированного управления

LEAVE A REPLY Cancel reply