Textboxes: A fast text detector with a single deep neural network (AAAI 2017)

  • 논문제목: Textboxes: A fast text detector with a single deep neural network
  • 주저자: Liao, M. (Huazhong University of Science and Technology)
    본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우 가로-세로 비율이 사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조).


    본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다.


    • VGG-16, SSD 구조를 이용한 word-based OCR approach
    • Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조)
    • Fully convolutional network (only convolutional and pooling layers)
    • Text-box layer -> classification score와 box offset 동시 추정
    • 학습 시 SSD 와 동일한 방식으로 ground truth BBOX 를 default box 에 매핑
      • box overlap 기반 매핑
      • Long default box 6종 채택 (1, 2, 3, 5, 7, 10 aspect ratios)
        • word/text 특성 고려
        • 세로로 듬성듬성 -> Vertical offset 을 default box 에 추가
      • 1 x 5 CNN kernel 채택
    • Multi-scale input images -> robust detection
      • (width*height) 300*300, 700*700, 300*700, 500*700, and 1600*1600
    • NMS 적용
    • CRNN model (Shi, Bai, and Yao 2015) 을 이용한 text recognizer 통합
      • Lexicon 이 주어지면, text recognizer 를 이용하여 text 가 아닌 것을 잘 걸러낼 수 있다


     

    Loss function 은 location 정확도와 objectless score (confidence) 두 가지 loss 를 더한 것으로 설정하였다. Location loss 는 smoothed L1 loss 를 적용하였으며, confidence score loss 는 2 class softmax loss 를 적용하였다.




    • Dataset
      • SynthText (Gupta, Vedaldi, and Zisserman 2016)
      • ICDAR 2011 (IC11)(Shahab, Shafait, and Dengel 2011)
      • ICDAR 2013 (IC13)(Karatzas et al. 2013)
      • Street View Text (SVT) (Wang and Belongie 2010)
    • Implementation details
      • 300*300 image input
      • Stochastic gradient descent (SGD)
      • Momentum 0.9
      • Weight decay 5 x10**-4
      • Initial learning rate 10**-3 (40k iteration 후 10**-4 으로 감소)
      • SynthText DB + 50k iteration 으로 초기 모델 만들고, 나머지 DB 는 fine-tuning 해서 적용 (2k iteration)
      • SVT 외 모든 나머지 DB: 2k iteration fine tuning
      • SVT: SVT training dataset 으로 fine tuning
      • Data augmentation: crop, flip(Liu et al. 2016)
      • One Titan X GPU -> 25 시간 학습
      • Pre-trained CRNN (Shi, Bai, and Yao 2015) model 로 텍스트 인식 (저자가 공개한 모델 적용)
    실험결과는 아래와 같다고 보고되어 있다.



Comments

Popular posts from this blog

EAST: an efficient and accurate scene text detector (CVPR 2017)

Realtime multi-person 2d pose estimation using part affinity fields (CVPR 2017)

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)