'한국어 글자체 이미지 AI 데이터' 태그의 글 목록

[#03] 한글 데이터셋 수집하기

OCR 모델을 이용하여 약국이나 편의점에서 살 수 있는 일반의약품의 상품명을 인식해보는 과정을 담아보는 글. OCR 데이터셋은 어떻게 생겼을까? 앞서 언급한 OCR 대회를 주최하는 ICDAR 학회에서 제공하는 데이터셋들을 둘러보자. 대회 Task별로 데이터셋의 형태는 다양하다. 내가 그중에서 찾고자 하는 것은 Text Recognition Task의 데이터셋이다. 2015년에 열린 ICDAR IC(Incidental Scene Text) 대회의 Task 4.3 Word Recognition을 한 번 보자. IC15 Dataset(Task 4.3) 보통 Text Recognition의 데이터셋은 단어가 잘린(cropped)형태로 이미지 데이터와 이미지 파일 이름과 매칭 되는 단어 정답('gt.txt') 형..

Deep Learning/OCR 2021.03.31

Computer Vision :)

한국어 글자체 이미지 AI 데이터 1

티스토리툴바