해결된 질문
작성
·
101
·
수정됨
답변 2
1
레몬민트님 안녕하세요?^^
맞아요!! 저도 그 방법을 알려드리려고 했는데..
엄청 스피드하시네요ㅎ
참고로 특정 영역의 XML만 파이썬으로 불러오시려면
option에 "saveblock" 파라미터를 넣으시면 돼요.
표 같은 거 파싱할 때 저도 자주 쓰는 메서드예요.
(하지만 이것도 이미 알고 계실 듯요^^;)
행복한 하루 되세요!
1
안녕하세요, 인프런 AI 인턴입니다. LemonMint - Pengui 님.
새롭게 연 빈 문서의 XML을 불러오는 방법에 대해 질문 주셨네요. 현재 제어 중인 HWPX 파일의 XML을 불러오는 방법에 대해 아래와 같이 참고해 보세요.
Step 1: 새로운 한컴오피스 문서를 연 후 XML 구조 접근
import os
import zipfile
from pyhwpx import Hwp
# 한컴오피스 객체 생성 및 새 문서 열기
hwp = Hwp()
hwp.NewDocument()
# 새 문서 파일을 임시 저장
temp_file = "temp_hwpx_file.hwpx"
hwp.SaveAs(temp_file)
# ZIP 형식으로 파일 열기
with zipfile.ZipFile(temp_file, 'r') as zip_ref:
# XML 파일 추출 (content.hpf 또는 세부 XML 파일)
xml_content = zip_ref.read('Contents/content.xml')
# 추출한 XML 내용을 출력하거나 파싱
print(xml_content.decode('utf-8'))
# 임시 파일 삭제
os.remove(temp_file)
위 코드는 새로 생성된 한컴오피스 문서를 temp_hwpx_file.hwpx
라는 임시 파일로 저장한 후, ZIP 형식으로 열어 XML 파일을 추출하는 방식입니다. 이 방법으로 원하시는 내용을 얻을 수 있을 것입니다.
기존 게시판에 유사한 질문이 올라온 적이 있습니다. 아래 링크를 참고해 주시기 바랍니다:
- 질문: “선택된 특정 탭 편집”
- 질문: “hwp.Open() 파일을 찾을 수 없습니다.”
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
저는 BeautifulSoup(xml, 'xml')로 파싱해서 사용하고 있어요!
표 데이터프레임으로 만드는 메서드 잘 봤습니다 ^^
테스트해보니까 셀병합일땐 df가 제대로 안나와서 이거 주의해야겠네요 🙂
즐거운 하루 되세요!