인프런 커뮤니티 질문&답변

한택진님의 프로필 이미지
한택진

작성한 질문수

직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피

필드속성 수정하기

누름틀이나 셀필드와 관계없이 한글파일에서 전체 텍스트 추출하기

작성

·

798

1

일코님, 안녕하세요.

 

필드 관련 수업을 듣다가 질문드립니다. 지금까지 배운 내용들은 대부분 '부분적'으로 누름틀이나 필드를 사용하여 텍스트를 추출하는 것이었는데,

 

누름틀이나 필드와 관계없이 문서의 전체 내용을 (양식에도 관계없이) 텍스트 형태로 뽑아내는 것이 가능할까요?

 

예를 들어, 보도자로 1000개를 다운로드해서 텍스트로 일일히 붙여넣기 보다는, (역시 양식에 관계없이) 자동으로 텍스트를 추출해서 리스트로 정리하는 겁니다.

 

이러면 특정 기간에 많이 쓰인 단어나, 감성분석, 거시적으로 정부의 보도자료가 어떻게 변해왔는지 등을 알기쉽게 시각화 할 수 있을 것 같은데 살펴봐주시면 감사드리겠습니다.

 

항상 좋은 컨텐츠 만들어주셔서 감사합니다.

답변 3

2

일코님의 프로필 이미지
일코
지식공유자

택진님 안녕하세요?

해당 기능은 hwp.GetTextFile이라는 (다소 직관적이지는 않은) 메서드로 가져오실 수 있습니다.

예시를 들어보면

whole_text = hwp.GetTextFile(Format="UNICODE", option=None)

이런 코드로 문서의 전체 텍스트를 한 번에 불러오실 수 있습니다.

image

만약 표나 주석 등 본문 외의 텍스트를 제외하고 싶다면

GetTextFile 대신 GetText를 사용하실 때, 제외옵션을 보다 상세하게 지정하실 수 있습니다.

도움이 되었으면 좋겠습니다^^

(답변이 너무 늦었습니다.. 죄송합니다ㅜ)

0

안녕하세요 일코님, GetTextFile로 문서에 있는 텍스트를 모두 가져올 수 있다면.. 반대의 방법으로 가져온 텍스트를 수정해서 다시 돌려보내는 방법이 있는지 궁금합니다. 표 같은게 있어도 그런게 가능한지 궁금하네요. 꼭 답변해주시면 감사하겠습니다. !

0

안녕하세요, 인프런 AI 인턴이에요. 한택진님의 질문에 답변드리겠습니다.

누름틀이나 셀필드와 관련없이 한글 파일에서 전체 텍스트를 추출하는 방법은 있습니다. 파이썬의 ‘한글 형태소 분석 모듈’을 사용하면 됩니다. 예를 들어, KoNLPy와 같은 모듈을 사용하여 한글 파일을 불러와 형태소 분석하여 텍스트를 추출할 수 있습니다.

한글 형태소 분석 모듈을 사용하면 텍스트에서 단어를 추출하고, 해당 단어의 빈도수를 계산할 수도 있습니다. 이를 통해 특정 기간에 많이 사용된 단어를 알아볼 수 있고, 감성분석이나 정부의 보도자료 변화를 시각화하는 것도 가능합니다.

하지만, 이러한 분석 작업을 위해서는 프로그래밍 언어 (Python 등)에 대한 기본적인 이해와 한글 형태소 분석에 대한 이해가 필요합니다. 또한, 한글 형태소 분석을 위한 모듈의 설치와 사용 방법에도 익숙해져야 합니다.

따라서, 텍스트 추출 및 분석을 자동화하고 시각화하는 방법에 대해서는 좀 더 구체적인 가이드가 필요하다고 생각됩니다. 프로그래밍에 익숙하지 않으시다면, 파이썬을 공부하시고 한글 형태소 분석에 대한 자료와 예제를 찾아보시는 것이 좋을 것 같습니다.

더 구체적인 방법을 알고 싶다면, 인프런의 다양한 프로그래밍 강의들을 통해 원하는 지식을 습득하시는 것을 추천드립니다. 항상 좋은 컨텐츠를 제공하기 위해 노력하겠습니다. 궁금한 점이 있으면 언제든지 질문해주세요! 좋은 하루 되세요.

한택진님의 프로필 이미지
한택진

작성한 질문수

질문하기