인프런 커뮤니티 질문&답변

해리님의 프로필 이미지
해리

작성한 질문수

[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝

복합명사 정제 관련 문의

작성

·

134

0

선생님 안녕하세요~ 실습을 해보다 의문점이 생겨 글을 남깁니다.

 

정제과정에서 혹시 두 단어로 만들어진 복합명사, 예를 들어 “국제법” 같은 경우 “국제” 와 ”법“으로 분석이 되는데요. 원글에 국제법으로 표기된 경우 이를 나누지 않고 ”국제법“으로 분석이 되게 할수 있는 방법이 있을까요?

이것저것 해봤는데 적용이 안되어 선생님께 도움을 청합니다!

감사합니다^^

답변 1

0

이진규님의 프로필 이미지
이진규
지식공유자

안녕하세요 질문 주셔서 감사합니다^^

이경우 형태소 분석기에서 복합명사를 인식하지 못하는 경우인데요.

방법은 2가지가 있습니다.

1.데이터 수집 후 데이터 전처리 부분에서 사용자 사전에서 "국제법"을 복합 명사로 처리되도록 등록 하는 방법

2.데이터 정제 과정에서 "국제"->"국제법"으로 변경한 뒤 "법"단어를 삭제하거나 "법"->"국제법"으로 변경한 뒤 "국제"단어를 삭제하는 방법

 

개인적으로 데이터 정제를 하실줄 아시니깐 2번째 방법이 좋으실것 같네요.

 

감사합니다(혹시 시간 되실때 강의 후기도 남겨주시면 제가 큰 힘이 될것 같습니다!)

 

 

 

 

 

 

해리님의 프로필 이미지
해리

작성한 질문수

질문하기