Home Искусственный интеллект Оценка позы человека | ИИ Лето | DeepTech

Оценка позы человека | ИИ Лето | DeepTech

0
Оценка позы человека |  ИИ Лето
 | DeepTech

Оценка позы человека — важная задача компьютерного зрения, которая в последние годы привлекла большое внимание и имеет широкий спектр приложений, таких как взаимодействие человека с компьютером, игры, распознавание действий, жизнь с помощью компьютера, специальные эффекты. Он быстро прогрессировал с появлением нейронных сетей в эпоху глубокого обучения.


оценка позы человека


Рис. 1. HPE

Итак, что такое оценка позы человека?

Целью трехмерной оценки позы человека является оценка положения суставов одного или нескольких человеческих тел в двухмерном или трехмерном пространстве по одному изображению. Суставы соединены, образуя скелет, описывающий позу человека.

Мы сосредоточимся на самых популярных и последних работах по 2D и 3D Human Pose Estimation.


открытая поза


Рисунок: Общая архитектура OpenPose

OpenPose — самый популярный инструмент с открытым исходным кодом для обнаружения ключевых точек тела, ног, рук и лица. Он использует поля сходства частей (PAF), набор двумерных векторных полей для кодирования местоположения и ориентации конечностей в области изображения. Как показано на изображении Ф проходит через несколько сверточных слоев для генерации PAF (л) и карты достоверности С для каждого места соединения. Процесс повторяется для нескольких итераций, и сеть уточняет свои прогнозы на каждом этапе. OpenPose до сих пор широко используется во многих исследовательских проектах.


3d-оценка позы


Рисунок 3: Схема нашего подхода. Строительным блоком нашей сети является линейный слой, за которым следует пакетная нормализация, отсев и активация RELU. Это повторяется дважды, и два блока замыкаются в остаточном соединении. Внешний блок повторяется дважды. Вход в нашу систему — это массив двухмерных положений суставов, а выход — ряд положений суставов в трехмерном пространстве.

В этой работе авторы реализовали легкую и быструю сеть, способную обрабатывать 300 кадров в секунду!!! После извлечения положения двумерного сустава из-за низкой размерности двумерного пространства они используют простую нейронную сеть, как показано на следующем рисунке, которая имеет небольшое количество параметров и может быть легко обучена. Сеть пытается оценить координаты стыков в 3D-пространстве.

Плотная поза: Плотная оценка позы человека в дикой природе

DensePose использует архитектуру Маска-RCNN с сетью функциональных пирамид (FPN) и объединение ROI-Align, чтобы получить плотные метки и координаты деталей в каждой из выбранных областей.
Как показано ниже, в методе используется полностью сверточная сеть поверх объединения областей интереса, которая полностью посвящена генерации результатов попиксельной классификации для выбора части поверхности и регрессии локальных координат внутри каждой части.


плотная поза

Систему DensePose-RCNN можно обучать напрямую, используя аннотированные точки в качестве контроля. Однако мы получаем значительно лучшие результаты, «закрашивая» значения контрольного сигнала в позициях, которые изначально не были аннотированы. Чтобы достичь этого, мы применяем подход, основанный на обучении, при котором сначала обучается сеть «учителя»: полностью сверточная нейронная сеть, которая восстанавливает истинные значения с учетом изображений, нормализованных по масштабу, и масок сегментации.


атмосфера

Платформа VIBE обучена предсказывать позу и форму человека в видео (последовательности изображений), а не в изображениях. Используя временную сеть, он производит кинематически правдоподобное движение человека. Они используют два источника непарной информации, обучая генеративно-состязательную сеть на основе последовательностей (GAN). Учитывая видео человека, временная модель обучается предсказывать параметры модели тела SMPL для каждого кадра, в то время как дискриминатор движения пытается различать реальные и регрессивные последовательности. CNN извлекает функции для каждого кадра, которые передаются из закрытых рекуррентных единиц для моделирования движения. Эти признаки используются для оценки параметров модели тела. Предполагаемая модель тела и образцы из набора данных захвата движения передаются дискриминатору, чтобы различать поддельные и настоящие примеры.


оценка многозадачности


Рисунок Предлагаемый многозадачный подход к оценке позы человека и распознаванию действий. Этот метод обеспечивает оценку позы в 2D/3D по отдельным изображениям или последовательностям кадров. Поза и визуальная информация используются для прогнозирования действий в единой структуре, и оба прогноза уточняются с помощью K блоков прогнозирования.

Многозадачная среда обучена совместной оценке 2D- или 3D-поз человека по монокулярным цветным изображениям и классификации действий человека по видеоряду.


многозадачная сетевая оценка позы


Рисунок Обзор многозадачной сетевой архитектуры

Входные изображения подаются через входной поток, который извлекает визуальные признаки низкого уровня. Извлеченные функции затем обрабатываются последовательностью пирамид масштабирования и масштабирования, индексированных п Каждый блок прогнозирования (PB) контролируется прогнозами позы и действия, которые затем повторно вводятся в сеть, создавая новую карту функций, которая уточняется путем дальнейшего уменьшения и увеличения пирамид.

Эта гибкая сетевая архитектура может выводить отдельные кадры для оценки позы или все видео для распознавания действий.


алгебраическая триангуляция


Рисунок 6 Алгебраическая триангуляция

Это подход с несколькими видами, который может использовать несколько камер под разными углами для более точной оценки позы. Здесь представлены два решения для использования информации из нескольких 2D-видов.

Алгебраическая триангуляция

Как показано на рисунке 6, изображения RGB проходят через 2D CNN для извлечения тепловых карт суставов и оценки достоверности суставов для каждой камеры. Совместные ключевые точки извлекаются путем применения soft-argmax к тепловым картам. Метод линейной алгебраической триангуляции используется для извлечения трехмерных местоположений суставов. Алгоритм триангуляции предполагает, что координаты соединения с каждой камеры не зависят друг от друга. Поскольку некоторые соединения не могут быть точно оценены с некоторого вида из-за окклюзии, сеть использует обучаемые веса (полностью связанный слой) для управления вкладом каждой камеры во время триангуляции.


объемная триангуляция


Рисунок 7 Объемная триангуляция

Метод объемной триангуляции

Основное отличие здесь в том, что карты объектов не проецируются в 3D-объемы. Трехмерный куб фиксированного размера вокруг человека заполняется путем проецирования выходных данных двухмерной сети вдоль проекционных лучей внутри трехмерного куба. Объемные карты из всех представлений собираются и передаются в сеть V2V. Модуль V2V — это трехмерная сверточная нейронная сеть, которая выводит трехмерные тепловые карты. Мягкий argmax используется в 3D-тепловых картах для вывода местоположения суставов. Этот подход в настоящее время является современным методом в
Человек3,6 млн набор данных, самый большой набор данных с человеческими позами.


результаты-объемный-подход


Рисунок 8. Результаты объемного подхода

Заключение

Мы представили некоторые из самых популярных и последних достижений в области оценки позы человека. Мы можем ожидать гораздо больше решений, поскольку глубокое обучение все еще развивается и применяется в Computer Vision.

Кроме того, если вы заинтересованы в более глубоком погружении в компьютерное зрение с помощью глубокого обучения, нет лучшего способа, чем Расширенное компьютерное зрение с TensorFlow курс DeepLearning.ai.

Рекомендации

  1. Сарафианос, Николас и Ботяну, Богдан и Ионеску, Богдан и Какадиарис, Иоаннис. (2016). Трехмерная оценка позы человека: обзор литературы и анализ ковариат. Компьютерное зрение и понимание изображений. 152. 10.1016/j.cviu.2016.09.002.

Книга «Глубокое обучение в производстве» 📖

Узнайте, как создавать, обучать, развертывать, масштабировать и поддерживать модели глубокого обучения. Изучите инфраструктуру машинного обучения и MLOps на практических примерах.

Узнать больше

* Раскрытие информации: Обратите внимание, что некоторые из приведенных выше ссылок могут быть партнерскими ссылками, и без дополнительной оплаты для вас мы будем получать комиссию, если вы решите совершить покупку после перехода по ссылке.

LEAVE A REPLY

Please enter your comment!
Please enter your name here