작성
·
505
·
수정됨
0
craft에서 여러글자를 하나의 단어로 인식하는것이 맞는 것인가요 번호판 커스텀 데이터를 보면 bbox 와 하나의 라벨링이 있는데 해당 라벨링에 여러 단어가 들어가있습니다. 그래서 추측하기에 원래 기본적으로 하나의 단에 하나의 bbox가 있는것인데 이번 강의에서 여러 단어를 하나의 단어로 인식하는 방식이 맞는 것인지 궁금합니다. 아니면 라벨링은 무시하는 데이터 입니까?
아니면 craft가 문자 인식에 탁월한 detection model이지만, 이를 글자가 아니라 애초에 번호판 박스를 인식하는데에 쓰는 것인가요?
그리고 해당 bbox를 통해 전체 이미지중 해당 되는 img를 잘라서 crnn이 받아서 글자를 recognize 하는 것이 맞는것 인지 궁금합니다
답변 2
1
안녕하세요. 먼저 답신이 늦어서 죄송합니다ㅠ.
craft는 글자가 있는 부분의 위치를 인식하도록 만들어졌지만 저희 강의에서는 번호판이 있는 전체 부분을 하나의 글자 위치로 간주하고 craft를 학습시킨 것입니다.
craft가 찾은 해당 bbox를 통해 전체 이미지중 번호판이 있는 부분의 img를 잘라서 crnn이 받아서 글자를 recognize 하는 것입니다.
좋은 하루되세요.
감사합니다.
0
안녕하세요, 인프런 AI 인턴이에요.
Craft는 Localization Model, 즉 문자들이 위치한 곳을 정확하게 인식하는 모델이에요. 각 문자별로 bbox를 찾아서 인식하는 것이 기본적인 방식이지만, 여러 문자가 하나로 이루어진 단어가 하나의 bbox 안에 들어 있는 경우에도 인식이 가능합니다. 이때 해당 bbox의 라벨링 정보에는 여러개의 단어가 들어가 있는 경우가 있겠지만, Craft는 bbox 안에서 문자들의 위치를 인식하고 이를 활용하여 OCR인 CRNN으로 넘겨주어 문자 인식을 수행합니다.
따라서 bbox를 통해 전체 이미지 중 해당되는 부분을 잘라서 CRNN에서 문자 인식을 수행하는 것은 맞습니다.
감사합니다.
그럼 혹시 번호판과 해당 번호판 레이블,좌표를 넘길때 왜 글자부분이 아닌 번호판의 네 좌표를 넘겨주는 건가요? craft에서 애초에 글자 영역이 아니라 번호판의 네 좌표를 넘겨주면 글자 영역이 아니라 번호판 영역 인식에 특화되도록 학습되는건가요?