pdf loader

Question

안녕하세요 이번에 인프런 강의를 들으면서 프로젝트로 학과 정보를 소개하는 챗봇을 개발하려고 합니다. 그런데 pdf 안에 내용이 스캔되어 있어서 loader가 읽어오지 못하는데 이러한 경우에는 어떻게 해결할 수 있을지 도움주시면 감사하겠습니다.

강병진 · Answer

안녕하세요 스캔본이라면 vision model을 활용하시는 편이 제일 좋습니다. 요즘은 vision model사용 비용이 많이 떨어지기도 해서, pdf -> png로 변환한 후에 api를 활용해서 vision model을 활용해서 텍스트를 인식하는 방식을 추천합니다. 해보고 잘 안되시면 다시 이야기 해보시죠~

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 권주현님.

PDF 문서에서 스캔된 이미지 형태의 텍스트를 읽어올 때 발생하는 문제를 해결하기 위해서는 OCR(광학 문자 인식) 기술을 활용해야 합니다. 이는 이미지에서 텍스트를 추출하는 기술로, 여러 Python 라이브러리를 사용하여 구현할 수 있습니다.

가장 많이 사용되는 라이브러리 중 하나는 Tesseract OCR입니다. 설치 후, Python 패키지인 pytesseract를 이용하여 PDF 이미지에서 텍스트를 추출할 수 있습니다. 다음은 기본적인 사용 예시입니다.

Tesseract 설치: 시스템에 Tesseract를 설치해야 합니다. 공식 Tesseract 설치 가이드 를 참조하세요.
pytesseract 이용:
”`python
from PIL import Image
import pytesseract
from pdf2image import convert_from_path

# PDF를 이미지로 변환
images = convert_from_path(‘your_pdf_file.pdf’)

# 각 이미지에서 텍스트 추출
for image in images:
text = pytesseract.image_to_string(image, lang=‘eng’)
print(text)
“여기서lang=‘eng’부분은 영어로 설정되어 있지만, 한글이 포함되어 있다면lang=‘kor’`로 설정하시면 됩니다. 한글 OCR을 위해서는 별도의 언어 파일을 설치해야 합니다.

추가 라이브러리 고려: pdfminer와 같은 pdf 텍스트 추출 라이브러리를 사용하여 PDF에서 가능한 텍스트 부분을 추출한 뒤 나머지 이미지를 OCR로 처리하는 방법도 있습니다.

이는 스캔된 PDF에서 정보를 추출하는 데 도움이 될 것입니다. 자유롭게 추가 질문해주세요. 지식공유자께서 곧 답변해주실 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

pdf loader