작성
·
27
0
안녕하세요 이번에 인프런 강의를 들으면서 프로젝트로 학과 정보를 소개하는 챗봇을 개발하려고 합니다. 그런데 pdf 안에 내용이 스캔되어 있어서 loader가 읽어오지 못하는데 이러한 경우에는 어떻게 해결할 수 있을지 도움주시면 감사하겠습니다.
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. 권주현님.
PDF 문서에서 스캔된 이미지 형태의 텍스트를 읽어올 때 발생하는 문제를 해결하기 위해서는 OCR(광학 문자 인식) 기술을 활용해야 합니다. 이는 이미지에서 텍스트를 추출하는 기술로, 여러 Python 라이브러리를 사용하여 구현할 수 있습니다.
가장 많이 사용되는 라이브러리 중 하나는 Tesseract OCR
입니다. 설치 후, Python 패키지인 pytesseract
를 이용하여 PDF 이미지에서 텍스트를 추출할 수 있습니다. 다음은 기본적인 사용 예시입니다.
Tesseract 설치: 시스템에 Tesseract를 설치해야 합니다. 공식 Tesseract 설치 가이드 를 참조하세요.
pytesseract 이용:
”`python
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
# PDF를 이미지로 변환
images = convert_from_path(‘your_pdf_file.pdf’)
# 각 이미지에서 텍스트 추출
for image in images:
text = pytesseract.image_to_string(image, lang=‘eng’)
print(text)
“
여기서
lang=‘eng’부분은 영어로 설정되어 있지만, 한글이 포함되어 있다면
lang=‘kor’`로 설정하시면 됩니다. 한글 OCR을 위해서는 별도의 언어 파일을 설치해야 합니다.
pdfminer
와 같은 pdf 텍스트 추출 라이브러리를 사용하여 PDF에서 가능한 텍스트 부분을 추출한 뒤 나머지 이미지를 OCR로 처리하는 방법도 있습니다.이는 스캔된 PDF에서 정보를 추출하는 데 도움이 될 것입니다. 자유롭게 추가 질문해주세요. 지식공유자께서 곧 답변해주실 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
Ocr 보다 vision model이 나을까요?