Оценка позы человека — важная задача компьютерного зрения, которая в последние годы привлекла большое внимание и имеет широкий спектр приложений, таких как взаимодействие человека с компьютером, игры, распознавание действий, жизнь с помощью компьютера, специальные эффекты. Он быстро прогрессировал с появлением нейронных сетей в эпоху глубокого обучения.
Рис. 1. HPE
Итак, что такое оценка позы человека?
Целью трехмерной оценки позы человека является оценка положения суставов одного или нескольких человеческих тел в двухмерном или трехмерном пространстве по одному изображению. Суставы соединены, образуя скелет, описывающий позу человека.
Мы сосредоточимся на самых популярных и последних работах по 2D и 3D Human Pose Estimation.
Рисунок: Общая архитектура OpenPose
OpenPose — самый популярный инструмент с открытым исходным кодом для обнаружения ключевых точек тела, ног, рук и лица. Он использует поля сходства частей (PAF), набор двумерных векторных полей для кодирования местоположения и ориентации конечностей в области изображения. Как показано на изображении Ф проходит через несколько сверточных слоев для генерации PAF (л) и карты достоверности С для каждого места соединения. Процесс повторяется для нескольких итераций, и сеть уточняет свои прогнозы на каждом этапе. OpenPose до сих пор широко используется во многих исследовательских проектах.
Рисунок 3: Схема нашего подхода. Строительным блоком нашей сети является линейный слой, за которым следует пакетная нормализация, отсев и активация RELU. Это повторяется дважды, и два блока замыкаются в остаточном соединении. Внешний блок повторяется дважды. Вход в нашу систему — это массив двухмерных положений суставов, а выход — ряд положений суставов в трехмерном пространстве.
В этой работе авторы реализовали легкую и быструю сеть, способную обрабатывать 300 кадров в секунду!!! После извлечения положения двумерного сустава из-за низкой размерности двумерного пространства они используют простую нейронную сеть, как показано на следующем рисунке, которая имеет небольшое количество параметров и может быть легко обучена. Сеть пытается оценить координаты стыков в 3D-пространстве.
Плотная поза: Плотная оценка позы человека в дикой природе
DensePose использует архитектуру Маска-RCNN с сетью функциональных пирамид (FPN) и объединение ROI-Align, чтобы получить плотные метки и координаты деталей в каждой из выбранных областей.
Как показано ниже, в методе используется полностью сверточная сеть поверх объединения областей интереса, которая полностью посвящена генерации результатов попиксельной классификации для выбора части поверхности и регрессии локальных координат внутри каждой части.
Систему DensePose-RCNN можно обучать напрямую, используя аннотированные точки в качестве контроля. Однако мы получаем значительно лучшие результаты, «закрашивая» значения контрольного сигнала в позициях, которые изначально не были аннотированы. Чтобы достичь этого, мы применяем подход, основанный на обучении, при котором сначала обучается сеть «учителя»: полностью сверточная нейронная сеть, которая восстанавливает истинные значения с учетом изображений, нормализованных по масштабу, и масок сегментации.
Платформа VIBE обучена предсказывать позу и форму человека в видео (последовательности изображений), а не в изображениях. Используя временную сеть, он производит кинематически правдоподобное движение человека. Они используют два источника непарной информации, обучая генеративно-состязательную сеть на основе последовательностей (GAN). Учитывая видео человека, временная модель обучается предсказывать параметры модели тела SMPL для каждого кадра, в то время как дискриминатор движения пытается различать реальные и регрессивные последовательности. CNN извлекает функции для каждого кадра, которые передаются из закрытых рекуррентных единиц для моделирования движения. Эти признаки используются для оценки параметров модели тела. Предполагаемая модель тела и образцы из набора данных захвата движения передаются дискриминатору, чтобы различать поддельные и настоящие примеры.
Рисунок Предлагаемый многозадачный подход к оценке позы человека и распознаванию действий. Этот метод обеспечивает оценку позы в 2D/3D по отдельным изображениям или последовательностям кадров. Поза и визуальная информация используются для прогнозирования действий в единой структуре, и оба прогноза уточняются с помощью K блоков прогнозирования.
Многозадачная среда обучена совместной оценке 2D- или 3D-поз человека по монокулярным цветным изображениям и классификации действий человека по видеоряду.
Рисунок Обзор многозадачной сетевой архитектуры
Входные изображения подаются через входной поток, который извлекает визуальные признаки низкого уровня. Извлеченные функции затем обрабатываются последовательностью пирамид масштабирования и масштабирования, индексированных п Каждый блок прогнозирования (PB) контролируется прогнозами позы и действия, которые затем повторно вводятся в сеть, создавая новую карту функций, которая уточняется путем дальнейшего уменьшения и увеличения пирамид.
Эта гибкая сетевая архитектура может выводить отдельные кадры для оценки позы или все видео для распознавания действий.
Рисунок 6 Алгебраическая триангуляция
Это подход с несколькими видами, который может использовать несколько камер под разными углами для более точной оценки позы. Здесь представлены два решения для использования информации из нескольких 2D-видов.
Алгебраическая триангуляция
Как показано на рисунке 6, изображения RGB проходят через 2D CNN для извлечения тепловых карт суставов и оценки достоверности суставов для каждой камеры. Совместные ключевые точки извлекаются путем применения soft-argmax к тепловым картам. Метод линейной алгебраической триангуляции используется для извлечения трехмерных местоположений суставов. Алгоритм триангуляции предполагает, что координаты соединения с каждой камеры не зависят друг от друга. Поскольку некоторые соединения не могут быть точно оценены с некоторого вида из-за окклюзии, сеть использует обучаемые веса (полностью связанный слой) для управления вкладом каждой камеры во время триангуляции.
Рисунок 7 Объемная триангуляция
Метод объемной триангуляции
Основное отличие здесь в том, что карты объектов не проецируются в 3D-объемы. Трехмерный куб фиксированного размера вокруг человека заполняется путем проецирования выходных данных двухмерной сети вдоль проекционных лучей внутри трехмерного куба. Объемные карты из всех представлений собираются и передаются в сеть V2V. Модуль V2V — это трехмерная сверточная нейронная сеть, которая выводит трехмерные тепловые карты. Мягкий argmax используется в 3D-тепловых картах для вывода местоположения суставов. Этот подход в настоящее время является современным методом в
Человек3,6 млн набор данных, самый большой набор данных с человеческими позами.
Рисунок 8. Результаты объемного подхода
Заключение
Мы представили некоторые из самых популярных и последних достижений в области оценки позы человека. Мы можем ожидать гораздо больше решений, поскольку глубокое обучение все еще развивается и применяется в Computer Vision.
Кроме того, если вы заинтересованы в более глубоком погружении в компьютерное зрение с помощью глубокого обучения, нет лучшего способа, чем Расширенное компьютерное зрение с TensorFlow курс DeepLearning.ai.
Рекомендации
- Сарафианос, Николас и Ботяну, Богдан и Ионеску, Богдан и Какадиарис, Иоаннис. (2016). Трехмерная оценка позы человека: обзор литературы и анализ ковариат. Компьютерное зрение и понимание изображений. 152. 10.1016/j.cviu.2016.09.002.
* Раскрытие информации: Обратите внимание, что некоторые из приведенных выше ссылок могут быть партнерскими ссылками, и без дополнительной оплаты для вас мы будем получать комиссию, если вы решите совершить покупку после перехода по ссылке.