Исследователи использовали технику искусственного интеллекта, называемую обучением с подкреплением, чтобы помочь двуногому роботу по прозвищу Кэсси пробежать 400 метров по различной местности и выполнить прыжки в длину и высоту с места, не тренируясь отдельно по каждому движению. Обучение с подкреплением вознаграждает или наказывает ИИ, когда он пытается достичь цели. В данном случае подход научил робота обобщать и реагировать в новых сценариях, а не замирать, как это могли делать его предшественники.
«Мы хотели расширить границы гибкости роботов», — говорит Чжунъюй Ли, аспирант Калифорнийского университета в Беркли, работавший над проектом, получившим еще не прошел рецензирование. «Целью высокого уровня было научить робота выполнять все виды динамических движений, как это делает человек».
Команда использовала симуляцию для обучения Кэсси — подход, который значительно ускоряет время, необходимое для обучения — с лет до недель — и позволяет роботу выполнять те же навыки в реальном мире без дальнейшей тонкой настройки.
Во-первых, они обучили нейронную сеть, управляющую Кэсси, освоить с нуля простой навык, такой как прыжки на месте, ходьба вперед или бег вперед, не опрокидываясь. Его обучали, поощряя имитировать показываемые ему движения, включая данные захвата движения, полученные от человека, и анимацию, демонстрирующую желаемое движение.
После завершения первого этапа команда представила модели новые команды, побуждающие робота выполнять задачи, используя свои новые навыки движения. Как только он научился выполнять новые задачи в смоделированной среде, они диверсифицировали задачи, которым он обучался, с помощью метода, называемого рандомизацией задач.
Это делает робота более подготовленным к неожиданным сценариям. Например, робот мог сохранять устойчивую походку, даже когда его тянули в сторону на поводке. «Мы позволили роботу использовать историю того, что он наблюдал, и быстро адаптироваться к реальному миру», — говорит Ли.
Кэсси пробежала 400 метров за две минуты 34 секунды, а затем прыгнула на 1,4 метра в прыжке в длину без необходимости дополнительной подготовки.
Сейчас исследователи планируют изучить, как этот метод можно использовать для обучения роботов, оснащенных встроенными камерами. «Это будет сложнее, чем выполнять действия вслепую», — добавляет Алан Ферн, профессор информатики в Университете штата Орегон, который помогал в разработке робота Кэсси, но не участвовал в этом проекте.
«Следующим важным шагом в этой области станут роботы-гуманоиды, которые выполняют реальную работу, планируют действия и фактически взаимодействуют с физическим миром способами, а не просто взаимодействием между ногами и землей», — говорит он.