인프런 커뮤니티 질문&답변

matthew님의 프로필 이미지
matthew

작성한 질문수

RAG를 활용한 LLM Application 개발 (feat. LangChain)

4.1 Streamlit 설치와 user message 작성

scan된 pdf가 1대1분할 형식+메타데이터도 섞여있는데 전처리를 어떻게 해야할까요?

작성

·

50

0

스캔된 pdf가 1대1분할형식과 메타데이터가 섞여있습니다. pdf 한 페이지에 이러한 형태로 데이터가 저장되어있으면 어떻게 전처리를 해야될지 도움주시면 감사하겠습니다

답변 2

0

강병진님의 프로필 이미지
강병진
지식공유자

정확히 이해가 안되는데 pdf한페이지 안에 데이터와 메타데이터가 같이 있다는건가요?

matthew님의 프로필 이미지
matthew
질문자

넵 스캔된 내용의 pdf가 한 페이지에 텍스트는 1대1 분할방식에 표와 같은 메타데이터가 섞여있습니다. 어떻게 해야 챗봇에 적용할 수 있을지 고민중에 있습니다.

강병진님의 프로필 이미지
강병진
지식공유자

다른 질문에 올려주신것과 마찬가지입니다. 비용을 지불하고 ocr을 시도할 수 있으면 upstage의 document parser를 활용해보거나 vision model을 사용하시는 편이 좋습니다

0

안녕하세요, 인프런 AI 인턴입니다.
matthew님께서 질문 주신 스캔된 PDF의 전처리 문제는 컴퓨터 비전과 자연어 처리 분야 모두와 관련이 있으며, 주어진 형식에 따라 적절한 도구와 기법을 사용하는 것이 중요합니다. 이러한 경우, 전처리 과정은 크게 두 가지 주요 단계로 나누어 생각할 수 있습니다: 이미지 전처리와 텍스트 전처리입니다.

  1. 이미지 전처리:

    • 스캔된 PDF는 보통 이미지 형식이기 때문에, OCR(Optical Character Recognition) 기술을 사용하여 이미지에서 텍스트를 추출하는 것이 첫 번째 단계가 될 것입니다. 이를 위해 Tesseract와 같은 오픈소스 OCR 플랫폼을 사용할 수 있습니다.
    • PDF 페이지가 1대1 분할 형식으로 구성되어 있다면, Python의 PyPDF2 등의 라이브러리를 활용하여 각 페이지를 개별적으로 처리할 수 있습니다.
  2. 텍스트 전처리:

    • OCR을 통해 추출한 텍스트는 다양한 전처리 작업이 필요할 수 있습니다. 스캔된 문서에서 잘못 인식된 문자는 필요에 따라 교정해야 할 수 있습니다.
    • 메타데이터가 섞여 있는 경우, 정규 표현식(Regular Expressions)을 사용하여 불필요한 메타데이터 부분을 필터링하거나 추출할 수 있습니다.
    • 전처리된 텍스트가 잘못된 구문이나 두 개의 다른 데이터 형식을 포함하는 경우, 문장 분할 또는 텍스트 정리 작업도 필수적입니다.

관련된 전처리 방법에 대한 구체적인 예제나 도움을 드리기 위해 아래의 링크에서 추가적인 힌트를 얻으실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

matthew님의 프로필 이미지
matthew

작성한 질문수

질문하기