Textboxes: A fast text detector with a single deep neural network (AAAI 2017)
논문제목: Textboxes: A fast text detector with a single deep neural network 주저자: Liao, M. ( Huazhong University of Science and Technology) 본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우 가로-세로 비율이 사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조). 본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다. VGG-16, SSD 구조를 이용한 word-based OCR approach Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조) Fully convolutional network (only convolutional and pooling layers) Text-box layer -> classification score와 box offset 동시 추정 학습 시 SSD 와 동일한 방식으로 grou...