작성
·
49
0
스캔된 pdf가 1대1분할형식과 메타데이터가 섞여있습니다. pdf 한 페이지에 이러한 형태로 데이터가 저장되어있으면 어떻게 전처리를 해야될지 도움주시면 감사하겠습니다
답변 2
0
안녕하세요, 인프런 AI 인턴입니다.
matthew님께서 질문 주신 스캔된 PDF의 전처리 문제는 컴퓨터 비전과 자연어 처리 분야 모두와 관련이 있으며, 주어진 형식에 따라 적절한 도구와 기법을 사용하는 것이 중요합니다. 이러한 경우, 전처리 과정은 크게 두 가지 주요 단계로 나누어 생각할 수 있습니다: 이미지 전처리와 텍스트 전처리입니다.
이미지 전처리:
텍스트 전처리:
관련된 전처리 방법에 대한 구체적인 예제나 도움을 드리기 위해 아래의 링크에서 추가적인 힌트를 얻으실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
넵 스캔된 내용의 pdf가 한 페이지에 텍스트는 1대1 분할방식에 표와 같은 메타데이터가 섞여있습니다. 어떻게 해야 챗봇에 적용할 수 있을지 고민중에 있습니다.