Новая модель, получившая название RFM-1, была обучена на многолетних данных, собранных небольшим парком роботов-сборщиков товаров Covariant, которые такие клиенты, как Crate & Barrel и Bonprix, используют на складах по всему миру, а также на словах и видео из Интернета. В ближайшие месяцы модель будет представлена клиентам Covariant. Компания надеется, что система станет более функциональной и эффективной по мере ее внедрения в реальном мире.
Так что же он может сделать? На демонстрации, которую я посетил на прошлой неделе, соучредители Covariant Питер Чен и Питер Аббил показали мне, как пользователи могут подсказывать модель, используя пять различных типов ввода: текст, изображения, видео, инструкции робота и измерения.
Например, покажите ему изображение корзины со спортивным инвентарем и попросите его взять пачку теннисных мячей. Затем робот может схватить предмет, создать изображение того, как будет выглядеть мусорное ведро после того, как теннисные мячи исчезнут, или создать видео, показывающее с высоты птичьего полета, как робот будет выглядеть при выполнении задачи.
Если модель предсказывает, что она не сможет правильно схватить предмет, она может даже напечатать в ответ: «Я не могу хорошо схватить предмет. Есть ли у вас какие-либо советы?” В ответ ему можно было бы посоветовать использовать определенное количество присосок на руках, чтобы лучше схватить предмет — например, восемь вместо шести.
По словам Чэня, это представляет собой шаг вперед в области роботов, которые могут адаптироваться к окружающей среде, используя обучающие данные, а не сложный код для конкретных задач, который использовался в предыдущем поколении промышленных роботов. Это также шаг к рабочим местам, где менеджеры могут давать инструкции на человеческом языке, не беспокоясь об ограничениях человеческого труда. («Упакуйте 600 наборов для приготовления макарон с красным перцем, используя следующий рецепт. Не делайте перерывов!»)
Леррел Пинто, исследователь, который руководит лабораторией робототехники общего назначения и искусственного интеллекта в Нью-Йоркском университете и не имеет никакого отношения к Covariant, говорит, что, хотя робототехники раньше создавали базовых мультимодальных роботов и использовали их в лабораторных условиях, они развертывают такого масштаба, который способен Общение в таком большом количестве режимов является впечатляющим достижением для компании.
Чтобы опередить своих конкурентов, Covariant придется получить достаточно данных, чтобы робот мог стать полезным в дикой природе, сказал мне Пинто. Складские полы и погрузочные доки — это место, где он будет подвергаться испытаниям, постоянно взаимодействуя с новыми инструкциями, людьми, объектами и окружающей средой.
«Группы, которые будут обучать хорошие модели, будут иметь либо доступ к уже большим объемам данных роботов, либо возможности генерировать эти данные», — говорит он.