Исследовать
Использование движений людей и животных для обучения роботов ведению мяча, а также имитация гуманоидных персонажей, чтобы переносить коробки и играть в футбол.
Пять лет назад мы взяли на себя задачу научить полностью ясно сформулированного гуманоидного персонажа преодолевать полосы препятствий. Это продемонстрировало, чего может достичь обучение с подкреплением (RL) методом проб и ошибок, но также выявило две проблемы в решении воплощенный интеллект:
- Повторное использование ранее изученных моделей поведения: Чтобы агент «сдвинулся с мертвой точки», требовался значительный объем данных. Не имея каких-либо начальных знаний о том, какую силу приложить к каждому из суставов, агент начал с беспорядочных подергиваний тела и быстрого падения на землю. Эту проблему можно решить, повторно используя ранее изученные модели поведения.
- Идиосинкразическое поведение: Когда агент наконец научился преодолевать полосы препятствий, он делал это с неестественной(хотя и забавно) модели движения, которые были бы непрактичны для таких приложений, как робототехника.
Здесь мы описываем решение обеих проблем, называемых нейронно-вероятностными моторными примитивами (NPMP), включающее управляемое обучение с использованием моделей движения, полученных от людей и животных, и обсуждаем, как этот подход используется в нашей работе. Гуманоидная футбольная бумага, опубликовано сегодня в Science Robotics.
Мы также обсуждаем, как этот же подход позволяет гуманоиду манипулировать всем телом с помощью зрения, например, гуманоид, несущий объект, и роботизированное управление в реальном мире, например, когда робот ведет мяч.
Преобразование данных в примитивы управляемых двигателей с использованием NPMP
NPMP — это модуль управления двигателем общего назначения, который преобразует кратковременные намерения двигателя в сигналы управления низкого уровня. обучен оффлайн или через РЛ путем имитации данных захвата движения (MoCap), записанных с помощью трекеров на людях или животных, выполняющих интересующие движения.
Модель состоит из двух частей:
- Кодировщик, который принимает будущую траекторию и сжимает ее в двигательное намерение.
- Контроллер низкого уровня, который производит следующее действие с учетом текущего состояния агента и этого двигательного намерения.
После обучения контроллер низкого уровня можно повторно использовать для изучения новых задач, при этом контроллер высокого уровня оптимизирован для прямой передачи двигательных намерений. Это обеспечивает эффективное исследование (поскольку возникает последовательное поведение даже при случайно выбранных двигательных намерениях) и ограничивает окончательное решение.
Срочная координация команды в гуманоидном футболе
Футбол был давний вызов для воплощенных разведывательных исследований, требующих индивидуальных навыков и скоординированной командной игры. В нашей последней работе мы использовали NPMP в качестве предварительного руководства для изучения двигательных навыков.
Результатом стала команда игроков, которая прошла путь от изучения навыков преследования мяча до, наконец, обучения координации. Ранее в учиться на простых вариантахмы показали, что скоординированное поведение может возникнуть в командах, конкурирующих друг с другом. NPMP позволил нам наблюдать аналогичный эффект, но в сценарии, который требовал значительно более совершенного контроля движений.
Наши агенты приобрели навыки, включая быстрое передвижение, пасы и разделение труда, о чем свидетельствует ряд статистических данных, включая показатели, используемые в реальная спортивная аналитика. Игроки демонстрируют как гибкий высокочастотный двигательный контроль, так и долгосрочное принятие решений, которое предполагает предвидение поведения товарищей по команде, что приводит к скоординированной командной игре.
Манипулирование всем телом и когнитивные задачи с использованием зрения
Научиться взаимодействовать с объектами с помощью рук — еще одна трудная задача управления. NPMP также может обеспечить этот тип манипуляций со всем телом. Имея небольшой объем данных MoCap о взаимодействии с ящиками, мы можем научить агента носить коробку из одного места в другое, используя эгоцентрическое видение и лишь скудный сигнал вознаграждения:
Аналогично мы можем научить агента ловить и бросать мячи:
Используя NPMP, мы также можем решить задания в лабиринте, включающие передвижение, восприятие и память:
Безопасное и эффективное управление реальными роботами
NPMP также может помочь управлять настоящими роботами. Хорошо упорядоченное поведение имеет решающее значение для таких действий, как ходьба по пересеченной местности или обращение с хрупкими предметами. Нервные движения могут повредить самого робота или его окружение или, по крайней мере, разрядить его аккумулятор. Поэтому значительные усилия часто вкладываются в разработку целей обучения, которые заставят робота делать то, что мы хотим, при этом ведя себя безопасно и эффективно.
В качестве альтернативы мы исследовали, можно ли использовать априоры, полученные из биологического движения может дать нам хорошо упорядоченные, естественные и многоразовые навыки движения для роботов на ногах, такие как ходьба, бег и повороты, которые подходят для использования на реальных роботах.
Начав с данных MoCap от людей и собак, мы адаптировали подход NPMP для обучения навыкам и контроллерам в симуляции, которую затем можно применить на реальных роботах-гуманоидах (OP3) и четвероногих (ANYmal B) соответственно. Это позволило пользователю управлять роботами с помощью джойстика или вести мяч в заданное место естественным и надежным способом.
Преимущества использования нейровероятностных двигательных примитивов
Таким образом, мы использовали модель навыков NPMP для изучения сложных задач с гуманоидными персонажами в симуляциях и реальных роботах. NPMP объединяет низкоуровневые двигательные навыки с возможностью повторного использования, что облегчает изучение полезных моделей поведения, которые было бы трудно обнаружить методом неструктурированных проб и ошибок. Использование захвата движения в качестве источника предварительной информации смещает обучение моторному контролю в сторону естественного движения.
NPMP позволяет встроенным агентам быстрее обучаться с помощью RL; научиться более натуралистичному поведению; научиться более безопасному, эффективному и стабильному поведению, подходящему для реальной робототехники; и сочетать контроль движений всего тела с более долгосрочными когнитивными навыками, такими как работа в команде и координация.
Узнайте больше о нашей работе: