Posts

Textboxes: A fast text detector with a single deep neural network (AAAI 2017)

Image
논문제목: Textboxes: A fast text detector with a single deep neural network 주저자:  Liao, M. ( Huazhong University of Science and Technology) 본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우  가로-세로 비율이  사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조). 본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다. VGG-16, SSD 구조를 이용한 word-based OCR approach Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조) Fully convolutional network (only convolutional and pooling layers) Text-box layer -> classification score와 box offset 동시 추정 학습 시 SSD 와 동일한 방식으로 ground truth BBOX

DeepPose: Human pose estimation via deep neural networks (CVPR 2014)

Image
논문 제목: DeepPose: Human pose estimation via deep neural networks 연구 기관: 구글 2012년 AlexNet 이 CNN (Convolutional Neural Network) 의 가능성을 확인시켜준 뒤, CNN 은 여려 컴퓨터 비전 분야로 확산 적용되었다. 본 연구는 CNN 을 포즈 추정 분야에 적용한 초기 연구이다. CNN 을 이용하여 사람 영역의 사각형 박스 위치를 추정하고, 박스 내에서 각 관절의 위치를 CNN 기반의 regression 방식으로 추정한다. 첫번째 regressor 를 이용하여 관절 위치를 추정한 후, 추정 오차를 보정하는 두 번째 regression network 을 순차적으로 연결하였다 (아마도, single regressor 로는 관절 위치 검출 성능이 충분히 만족스럽지 않았을 것으로 추정된다. 실제 필자의 경우에도, OCR 을 위한 숫자 영역 검출에 single regressor 로 글자 영역 사각형의 point 검출을 시도한 적이 있었는데 성능이 그리 좋지 않았었다). 두 번째 regressor 는 첫 번째 regressor 가 추정한 관절 위치 주변에 대해서만 fine tuning 하도록 제한 하였다. 이런 방식으로 multi-regressor 를 순차적으로 연결시켜 나갈 수 있다. 아래 그림에 본 연구에서 채용한 cascaded regression 구조를 나타내었다. 추정 오차에 대해 독특한 data augmentation 방법을 채용하고 있다. 이전 스테이지 결과로 부터 수집된 오차 데이터를 정규 분포로 모델링한 후, 현재 스테이지에서 가상의 오차값을 정규 분포를 이용하여 무작위 생성하는 방식으로 data augmentation 을 하였다. 본 연구는 CMU (Carnegie Mellon University) 에서 연구한 pose machine 기술과 비슷한 구조를 보인다 (CMU는 직접적인 point regression 을 하지 않고, 각

Recurrent models of visual attention (NIPS 2014)

Image
논문 제목: Recurrent models of visual attention. In Advances in neural information processing systems 주 저자:  Volodymyr Mnih (구글 딥마인드) 연구 기관: 구글 딥마인드 일반적으로 CNN (Convolutional Neural Network) 은 이미지 내의 모든 영역에 대해 convolution kernel, pooling, non-linear activation function, normalization 등을 계층적으로 적용하여 최종 feature map 을 생성한 후, 최종 feature map 에 대해 classification, detection, segmentation 등을 적용한다. 이 경우, 분석해야 할 영역 이 외의 나머지 모든 영역들에 대해서도 CNN 을 적용함으로써 과다한 연산량이 소모될 뿐 아니라, 중요한 정보가 있는 영역 외의 정보들이 최종 레이어로 전달되므로 분석에 있어 일종의 'noise' 요인이 될 수 있다. 본 연구는 attention model 을 단문자 인식에 적용한 것으로써, 문자 라인을 형성하는 주요 영역들을 순차적으로 찾아내고, 주요 영역에 국한되는 'local CNN' 을 적용하는 기술이다. 이렇게 함으로써 배경 영역에 대한 분석을 제거하여 불필요한 연산량을 과도하게 소모하지 않고, 주요 영역에 집중하여 분석을 수행할 수 있게 한다. 이러한 처리 과정은 인간이 이미지 내의 객체를 바라볼 때, 배경에 신경쓰지 않고 보고자 하는 객체 영역의 여러 국지적 모양을 훑어보는 것을 모방한 것이다.   기술 구조는 크게 세 가지로 구성된다.  Glimpse Sensor 이전 시점의 location 정보 (l t-1 ) 및 이미지를 입력받아서 그 위치에 해당하는 'local' image patch ⍴(x t , l t-1 ) 생성 (아래 그림의 A) Glimpse N

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)

Image
논문 제목: Towards Accurate Multi-person Pose Estimation in the Wild 연구 기관: 구글 본 연구는 Faster R-CNN 으로 사람 영역의 rectangular bounding box 를 찾고, box 영역 내에서 pose estimation 을 처리하는 2단계 기술 구조를 제안한다 (아래 그림 참조). [ Network Architecture ] Person detection 을 위한 faster R-CNN 은 ResNet101 을 backbone 으로 사용하였다. Person detection 에 의해 검출된 영역은 가로 또는 세로 길이를 변환하여 가로/세로 비율이 일정 비율을 가지도록 하였다  (위 그림 (1) 의 person detection 결과인 붉은 색 box 가 (2) 에서는 세로 방향으로 축소된 모습을 볼 수 있다) . 학습 시의 데이터 증강을 위해 person detection 결과 box 영역을 1.0 ~ 1.5 사이의 scale factor 값을 무작위 선정하여 조금 더 넓은 person box 를 학습 데이터로 추가하였다. 추론 시에는   scale factor 값을 1.25로 고정시켰다. 이와 같은 image cropping 및 re-sizing 을 통해 최종적으로 353 x 257 크기의 이미지를 생성하여 pose estimation module 로 전달한다. 또한, activation feature point 의 이미지 분석 대상 영역을 넓히기 위해서 atrouse convolution 을 적용하였다. Atrouse convolution 은 convolution kernel 의 분석 포인트를 일정 간격을 두고 배치한 kernel 이다. 아래 그림에서 (a) 가 일반적인 convolution kernel 이고, (b) 와 (c) 그림이 각각 convolution point 를 일정 간격을 두고 convolution point 를 배치한 atrouse

Show, attend and tell: Neural image caption generation with visual attention (ICML 2015)

Image
논문 제목: Show, attend and tell: Neural image caption generation with visual  attention 주 저자: Kelvin Xu (몬트리올 대학) 참여 연구 기관: 몬트리올 대학, 토론토 대학 요즘 들어 주목받고 있는 attention model 에 관한 연구이다. Attention model 은 시계열 분석 모델에서 처음 적용되기 시작했다. 대표적인 논문 중 하나는 Bahdanau 가 기계 번역에 적용한 아래 논문이다. Bahdanau 는 기계 번역을 위해 Bi-LSTM 구조를 채용하고, 현재 시점을 중심으로 일정 time window 에 포함되는 LSTM hidden state 의 가중합으로  출력값을 추정한다. 이 때, hidden state 에 대한 가중치가 attention model 의 추정값이 된다. ( Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473. ) [ Network Architecture ] 최근 들어 attention model 을 computer vision 분야에 적용하는 논문들이 발표되고 있다. 여기서 소개하는 논문은 이미지가 한 장 주어졌을 때, 이미지를 설명하는 문장을 생성하는 image captioning 기술에 관한 것이다.  Image captioning을 위해서는  이미지 내에 어떠한 'context'가 내재되어 있는지 분석해야 한다. 본 논문에서는 context 분석 시 이미지 내에서 어느 위치를 주목해서 봐야하는지 attention model 을 이용하여 추정하고 있다. 아래 그림에서 본 논문의 전체적인 기술 구조를 도식화하였다. 위 그림에서 보여지듯이, 전체적인 구조는 encode