Pose machines: Articulated pose estimation via inference machines (ECCV 2014)

September 01, 2019

논문 제목: Pose machines: Articulated pose estimation via inference machines
연구 기관: Carnegie Mellon University

본 연구는 multi-stage classifier 를 이용하여 human pose 를 추정하는 기술에 관한 것이다. 본 연구는 neural network 기반의 기술이 아니라 hand-crafted feature function 을 적용 하였다. 아래 본 연구의 후속 연구에서 유사한 전체 기술 구조에 기반하여 hand-crafted function 을 neural network 로 대체한 기술을 발표하였다. 따라서 본 연구는 기술의 key idea 에 대해 간단히 설명하고, 자세한 내용은 조만간 게재할 후속 연구 리뷰 글에서 기술하기로 한다.

후속 연구 논문

Wei, S. E., Ramakrishna, V., Kanade, T., & Sheikh, Y. (2016). Convolutional pose machines. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4724-4732).

본 연구에서 제안하는 전체적인 기술 구조는 아래 그림과 같으며, 연구자들은 'Pose Machine' 이라고 명명하였다.

이해를 돕기 위해, 용어 정의 부터 설명한다.

Part

추정하고자 하는 사람의 관절

P (p: 1 ~ P)

전체 part 개수

Confidence map

이미지 내 각 픽셀이 part 위치일 확률 (입력 이미지 크기와 동일 크기의 map)
각 part 마다 1장 씩 할당 (위 그림에서 파란색 그림에 해당)

Image patch

전체 이미지 중 특정 location z 픽셀 주위의 일정 영역 (local image)

Level (l: 1 ~ L)

Image patch 크기를 나타내는 인덱스

픽셀 위치 z에서 Image patch 의 특성을 나타내는 hand-crafted feature (feature function 은 고정)
Histogram of Gradients (HOG) features, Lab color features, 및 gradient magnitude 등

Confidence map 을 출력하는 multi-class classifier

Confidence map 을 context feature 로 변환하는 feature function

위 그림 (a) 는 level 1 에 해당하는 image patch 로 부터 feature xz 를 생성하고, multi-class classifier gt 를 통해 각 파트의 confidence map bt 를 출력하는 과정을 도식화 한 것이다.

위 그림 (b) 는 각 레벨 마다 서로 다른 multi-class classifier 를 배치하고, 이러한 stage 를 복수 개로 순차 연결한 최종 기술 구조를 도식화 한 것이다.

Multi-class classifier 출력인 confidence map 의 개수는 각 레벨 마다 다르게 설정된다. 레벨 이 낮으면 (image patch size 가 작으면) confidence map 개수가 많으며, 레벨 이 높으면 (image patch size 가 크면) confidence map 개수가 작다.

예를 들어, 레벨 1 은 출력 confidence map 개수를 P 개 로 설정하고 (전체 파트 개수), 레벨 L 은 출력 confidence map 개수가 1 로 설정할 수 있다. 이 경우, 레벨 1 에서는 part 1개당 confidence map 1 개를 할당하여 'local context' 를 분석하고, 레벨 L 에서는 전체 part P 에 대해 confidence map 1 개를 할당하여 'global context' 를 분석하는 구조로 설계할 수 있다.

이렇게 분석한 local and global context 는 다음 stage 로 전달되어 stage 가 진행될 수록 보다 정교한 confidence map 을 추정하게 된다. 이 과정에서, 각 레벨은 다른 레벨로 부터의 정보를 함께 입력받음으로써, local and global context 를 모두 이용하여 현재 레벨의 confidence map 을 생성한다.

아래 그림은 stage 가 진행될 수록 보다 정교한 confidence map 이 출력되는 것을 보여준다.

Search This Blog

KAIER AI Tech. Blog

Pose machines: Articulated pose estimation via inference machines (ECCV 2014)

Comments

Post a Comment

Popular posts from this blog

EAST: an efficient and accurate scene text detector (CVPR 2017)

Show, attend and tell: Neural image caption generation with visual attention (ICML 2015)

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)

태그