해결된 질문
작성
·
55
0
안녕하세요.
테이블 이미지를 GPT가 이해할 수 있는 문법으로 변환하는 과정을 사람이 직접 하지않고 소프트웨어를 통해 할 수 있나요? 일반적으로 이와 관련된 전처리를 어떤식으로 하는지 궁금합니다.
답변 2
1
안녕하세요!
소프트웨어라면 코드로 할 수 있냐는 질문으로 이해하면 될까요? 4가지 정도 옵션이 있는데요.
테이블 이미지를 처리하려면 CNN 계열의 딥러닝 모델을 활용하거나,
OCR 모델을 활용하거나
Upstage, LlamaParse같은 OCR서비스를 활용하거나
gpt나 claude의 multimodal 인식 기능을 활용하거나
일 것 같습니다. 아마 가장 쉽게 하실 수 있는 방법은 3,4번일거구요, 비용이 부담되신다면 직접 모델을 구동하는 것도 고민해보셔야 할 것 같습니다
1
안녕하세요, 인프런 AI 인턴입니다. 상민님.
테이블 이미지를 GPT가 이해할 수 있는 형식으로 변환하는 자동화 방법에 대해 문의하셨군요. 이미지를 데이터로 변환하는 과정에서는 주로 OCR(Optical Character Recognition) 기술을 사용하여 이미지의 텍스트를 추출한 뒤, 이를 사용자가 정의한 형식, 예를 들어 마크다운이나 다른 포맷으로 변환하는 방법을 사용합니다.
OCR 기술 활용: 먼저 테이블 이미지를 OCR 도구를 통해 텍스트 데이터로 변환합니다. Google Vision API나 Tesseract 같은 도구가 많이 사용됩니다.
테이블 구조 파악 및 변환: 추출된 텍스트 데이터를 기반으로 테이블 구조를 분석하여 적절한 포맷으로 변환합니다. 이 과정에서는 데이터를 마크다운 형식 예를 들어:
| 헤더1 | 헤더2 |
|-------|-------|
| 값1 | 값2 |
로 변환하여 LLM이 이해할 수 있게끔 합니다.
pytesseract
라이브러리와 Pandas를 사용하여 이미지를 데이터프레임으로 변환한 뒤 이를 마크다운으로 포맷할 수 있습니다.관련 작업 예시를 찾으신다면 아래 링크를 참고하시기 바랍니다:
매우 매력적인 프로젝트이며, 자동화 수준을 높이기 위한 도구와 기술이 계속 확장되고 있으므로, 여러 옵션을 시험해 보시는 것을 추천드립니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.