Адам Зеве | Новости Массачусетского технологического института
Любой, кто когда-либо пытался упаковать семейный багаж в багажник размером с седан, знает, что это серьезная проблема. Роботы также справляются с плотной упаковкой.
Для робота решение проблемы упаковки включает в себя выполнение множества ограничений, таких как укладка багажа таким образом, чтобы чемоданы не выпали из багажника, тяжелые предметы не помещались поверх более легких, а также столкновения между роботизированной рукой и бампером автомобиля. избегаются.
Некоторые традиционные методы решают эту проблему последовательно, угадывая частичное решение, удовлетворяющее одному ограничению за раз, а затем проверяя, не были ли нарушены какие-либо другие ограничения. Учитывая длинную последовательность действий и кучу багажа, который нужно упаковать, этот процесс может занять непрактично много времени.
Исследователи Массачусетского технологического института использовали форму генеративного искусственного интеллекта, называемую диффузионной моделью, чтобы более эффективно решить эту проблему. Их метод использует набор моделей машинного обучения, каждая из которых обучена представлять один конкретный тип ограничений. Эти модели объединяются для генерации глобальных решений проблемы упаковки с учетом всех ограничений одновременно.
Их метод позволил генерировать эффективные решения быстрее, чем другие методы, и позволил получить большее количество успешных решений за тот же промежуток времени. Важно отметить, что их техника также позволяла решать проблемы с новыми комбинациями ограничений и большим количеством объектов, которые модели не видели во время обучения.
Благодаря этой обобщаемости их метод можно использовать для обучения роботов тому, как понимать и решать общие ограничения проблем упаковки, такие как важность предотвращения столкновений или желание, чтобы один объект находился рядом с другим объектом. Роботы, обученные таким образом, могут быть применены для решения широкого спектра сложных задач в самых разных условиях: от выполнения заказов на складе до организации книжной полки в чьем-то доме.
«Мое видение состоит в том, чтобы заставить роботов выполнять более сложные задачи, которые имеют множество геометрических ограничений и требуют более непрерывного принятия решений — именно с такими проблемами сталкиваются сервисные роботы в нашей неструктурированной и разнообразной человеческой среде. Благодаря мощному инструменту композиционных диффузионных моделей мы теперь можем решать эти более сложные проблемы и получать отличные результаты обобщения», — говорит Чжутянь Ян, аспирант электротехники и информатики и ведущий автор исследования. статья об этой новой технике машинного обучения.
Среди ее соавторов — аспиранты Массачусетского технологического института Цзяюань Мао и Илун Ду; Цзяцзюнь Ву, доцент кафедры информатики Стэнфордского университета; Джошуа Б. Тененбаум, профессор кафедры мозговых и когнитивных наук Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Томас Лосано-Перес, профессор информатики и инженерии Массачусетского технологического института и член CSAIL; и старший автор Лесли Кельблинг, профессор компьютерных наук и инженерии Panasonic в Массачусетском технологическом институте и член CSAIL. Исследование будет представлено на конференции по обучению роботов.
Усложнения ограничений
Проблемы непрерывного удовлетворения ограничений особенно сложны для роботов. Эти проблемы возникают при выполнении многоэтапных задач по манипулированию роботами, таких как упаковка предметов в коробку или накрытие обеденного стола. Они часто включают в себя достижение ряда ограничений, включая геометрические ограничения, такие как предотвращение столкновений между манипулятором робота и окружающей средой; физические ограничения, такие как штабелирование объектов для обеспечения их устойчивости; и качественные ограничения, такие как размещение ложки справа от ножа.
Ограничений может быть много, и они различаются в зависимости от проблемы и среды в зависимости от геометрии объектов и требований, заданных человеком.
Чтобы эффективно решить эти проблемы, исследователи Массачусетского технологического института разработали метод машинного обучения под названием Диффузия-CCSP. Модели диффузии учатся генерировать новые образцы данных, которые напоминают образцы в наборе обучающих данных, путем итеративного уточнения их выходных данных.
Для этого диффузионные модели изучают процедуру внесения небольших улучшений в потенциальное решение. Затем, чтобы решить проблему, они начинают со случайного, очень плохого решения, а затем постепенно улучшают его.
Например, представьте себе, что тарелки и посуда случайно размещаются на смоделированном столе, что позволяет им физически перекрываться. Ограничения без столкновений между объектами приведут к тому, что они будут отталкивать друг друга, а качественные ограничения будут перетаскивать тарелку в центр, выравнивать вилку для салата и обеденную вилку и т. д.
Модели диффузии хорошо подходят для такого рода задач непрерывного удовлетворения ограничений, поскольку влияние нескольких моделей на положение одного объекта может быть составлено таким образом, чтобы способствовать удовлетворению всех ограничений, объясняет Янг. Каждый раз начиная со случайного начального предположения, модели могут получить разнообразный набор хороших решений.
Работаем вместе
В рамках Diffusion-CCSP исследователи хотели уловить взаимосвязь ограничений. Например, при упаковке одно ограничение может требовать, чтобы определенный объект находился рядом с другим объектом, а второе ограничение может указывать, где должен находиться один из этих объектов.
Diffusion-CCSP изучает семейство моделей диффузии, по одной для каждого типа ограничений. Модели обучаются вместе, поэтому они делятся некоторыми знаниями, например о геометрии упаковываемых объектов.
Затем модели работают вместе, чтобы найти решения (в данном случае места для размещения объектов), которые совместно удовлетворяют ограничениям.
«Мы не всегда находим решение с первого взгляда. Но когда вы продолжаете совершенствовать решение и происходит какое-то нарушение, это должно привести вас к лучшему решению. Вы получаете руководство, если делаете что-то не так», — говорит она.
Обучение отдельных моделей для каждого типа ограничений, а затем их объединение для получения прогнозов значительно сокращает объем необходимых обучающих данных по сравнению с другими подходами.
Однако для обучения этих моделей по-прежнему требуется большой объем данных, демонстрирующих решенные проблемы. Людям придется решать каждую проблему традиционными медленными методами, что делает стоимость создания таких данных непомерно высокой, говорит Янг.
Вместо этого исследователи повернули процесс вспять, сначала найдя решения. Они использовали быстрые алгоритмы для создания сегментированных блоков и размещения разнообразного набора 3D-объектов в каждом сегменте, обеспечивая плотную упаковку, стабильные позы и решения без столкновений.
«Благодаря этому процессу генерация данных при моделировании происходит практически мгновенно. Мы можем создать десятки тысяч сред, в которых, как мы знаем, проблемы разрешимы», — говорит она.
Обученные с использованием этих данных модели диффузии работают вместе, чтобы определить места, где объекты должны быть размещены с помощью роботизированного захвата, который выполняет задачу упаковки, соблюдая при этом все ограничения.
Они провели технико-экономическое обоснование, а затем продемонстрировали Diffusion-CCSP с помощью реального робота, решающего ряд сложных задач, включая размещение 2D-треугольников в коробке, упаковку 2D-фигур с ограничениями пространственных отношений, укладку 3D-объектов с ограничениями устойчивости и упаковку 3D-объектов с роботизированная рука.
Их метод превзошел другие методы во многих экспериментах, создав большее количество эффективных решений, которые были стабильными и свободными от столкновений.
В будущем Янг и ее коллеги хотят протестировать Diffusion-CCSP в более сложных ситуациях, например, с роботами, которые могут передвигаться по комнате. Они также хотят, чтобы Diffusion-CCSP мог решать проблемы в различных областях без необходимости переобучения на новых данных.
«Diffusion-CCSP — это решение машинного обучения, основанное на существующих мощных генеративных моделях», — говорит Данфэй Сюй, доцент Школы интерактивных вычислений Технологического института Джорджии и научный сотрудник NVIDIA AI, который не принимал участия в разработке. с этой работой. «Он может быстро генерировать решения, которые одновременно удовлетворяют множеству ограничений, путем составления известных индивидуальных моделей ограничений. Хотя он все еще находится на ранних стадиях разработки, продолжающиеся достижения в этом подходе обещают создание более эффективных, безопасных и надежных автономных систем в различных приложениях».
Это исследование частично финансировалось Национальным научным фондом, Управлением научных исследований ВВС, Управлением военно-морских исследований, лабораторией искусственного интеллекта MIT-IBM Watson, MIT Quest for Intelligence, Центром мозга, разума и Machines, Бостонский институт искусственного интеллекта Dynamics, Стэнфордский институт человеко-ориентированного искусственного интеллекта, Analog Devices, JPMorgan Chase and Co. и Salesforce.
Новости Массачусетского технологического института