Deep Learning/OCR

[#01] OCR 모델 조사

족제비다아 2021. 3. 29. 09:47

OCR 모델을 이용하여 약국이나 편의점에서 살 수 있는 일반의약품의 상품명을 인식해보는 과정을 담아보는 글.

 

이전 글 요약

 OCR은 2단계로 이루어진다 

    - Text detection + Text recognition

    - 글자 위치를 찾고 + 어떤 글자인지 인식하자.


Pipeline

약 상자를 촬영하면 'Text Detection Model'을 통해 상자에 글씨가 있는 위치들이 네모 박스로 표시된다.

그리고 네모 박스로 표시된 글씨들은 'Text Recognition Model'을 통해 어떤 내용인지 인식하여 알려준다.

Text Detection

Text Detection

Text Recognition

Text Recognition

좋은 Model을 찾아서

최신 Text Detection & Recognition 기술들을 follow-up 하는 방법 중에 하나는 ICDAR이라는 문서 분석 및 인식 국제 학술 대회에서 2년마다 열리는 Robust Reading Challenge 대회를 참고하는 것이다. ICDAR에서 제작한 공개 데이터셋을 이용해 text detection, recognition 등 여러 가지 대회를 열어 최고의 모델을 가리는데 Naver Clova AI, Tencent, SenseTime, Google과 같이 대단한 팀들이 참여하고 있다.

 

Introduction - Robust Reading Competition

 

rrc.cvc.uab.es

 

하지만 성능이 좋다고 무조건 좋은 모델이라고 생각하면 안된다. 해당 데이터셋에 오버피팅된 모델일 수도 있고 다른 환경적 제약이 많을 수 있기 때문이다. 따라서 참고하기 좋은 모델은

 

1. 코드가 공개되어 있으며

2. 학습 및 튜닝이 쉽고

3. 그 다음에 대회 상위권에 있는 순서로 보는 것이 좋다.

 

ICDAR의 대회 페이지는 나름 잘 구성되어 있지만 대회 결과 모델들을 살펴보기에는 조금 불편하게 디자인이 되어있다. 이런 비슷한 대회들과 상위권 모델들 그리고 코드의 유무 등을 정말 보기 쉽게 정리한 페이지가 있는데 바로 "paperswithcode"라는 사이트다. cs에 관련된 논문들이 저장되어 있고 인기 순, 대회별 논문 등 최신 연구 트렌드나 state-of-the-art 모델들을 찾기 좋은 곳으로 인기도 많다.

 

Papers with Code - The latest in Machine Learning

Papers With Code highlights trending Machine Learning research and the code to implement it.

paperswithcode.com

+ 이활석님께서 OCR에 대한 모델들을 조사하여 정리하신 github 페이지도 있으니 참고하면 좋을 것 같다.

 

hwalsuklee/awesome-deep-text-detection-recognition

A curated list of resources for text detection/recognition (optical character recognition ) with deep learning methods. - hwalsuklee/awesome-deep-text-detection-recognition

github.com