Textboxes: A fast text detector with a single deep neural network (AAAI 2017)

September 04, 2019

논문제목: Textboxes: A fast text detector with a single deep neural network
주저자: Liao, M. (Huazhong University of Science and Technology)

본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우 가로-세로 비율이 사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조).

본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다.

VGG-16, SSD 구조를 이용한 word-based OCR approach
Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조)
Fully convolutional network (only convolutional and pooling layers)
Text-box layer -> classification score와 box offset 동시 추정
학습 시 SSD 와 동일한 방식으로 ground truth BBOX 를 default box 에 매핑

box overlap 기반 매핑
Long default box 6종 채택 (1, 2, 3, 5, 7, 10 aspect ratios)

word/text 특성 고려
세로로 듬성듬성 -> Vertical offset 을 default box 에 추가

1 x 5 CNN kernel 채택

Multi-scale input images -> robust detection

(width*height) 300*300, 700*700, 300*700, 500*700, and 1600*1600

NMS 적용
CRNN model (Shi, Bai, and Yao 2015) 을 이용한 text recognizer 통합

Lexicon 이 주어지면, text recognizer 를 이용하여 text 가 아닌 것을 잘 걸러낼 수 있다

Loss function 은 location 정확도와 objectless score (confidence) 두 가지 loss 를 더한 것으로 설정하였다. Location loss 는 smoothed L1 loss 를 적용하였으며, confidence score loss 는 2 class softmax loss 를 적용하였다.

Dataset

SynthText (Gupta, Vedaldi, and Zisserman 2016)
ICDAR 2011 (IC11)(Shahab, Shafait, and Dengel 2011)
ICDAR 2013 (IC13)(Karatzas et al. 2013)
Street View Text (SVT) (Wang and Belongie 2010)

Implementation details

300*300 image input
Stochastic gradient descent (SGD)
Momentum 0.9
Weight decay 5 x10**-4
Initial learning rate 10**-3 (40k iteration 후 10**-4 으로 감소)
SynthText DB + 50k iteration 으로 초기 모델 만들고, 나머지 DB 는 fine-tuning 해서 적용 (2k iteration)
SVT 외 모든 나머지 DB: 2k iteration fine tuning
SVT: SVT training dataset 으로 fine tuning
Data augmentation: crop, flip(Liu et al. 2016)
One Titan X GPU -> 25 시간 학습
Pre-trained CRNN (Shi, Bai, and Yao 2015) model 로 텍스트 인식 (저자가 공개한 모델 적용)