데이터 전처리 관련 질문드립니다.

빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)

작성

101

안녕하세요 선생님

데이터 전처리 과정에서 힘든점이 있어 한가지 여쭙고 싶어 질문드립니다.

텍스트 마이닝의 경우 원본(예를 들어 리뷰 등) 데이터가 많게는 몇천건에서 수만건, 수십만건 까지 자료를 수집해서 분석할 수 있는데 한글의 경우 okt 분석기로 형태소 분석을 하고 나면 여전히 제대로 단어가 분리되지 않아 단어 정제, 불용어 제거, 단어 정규화 과정을 계속 거쳐야 하잖아요..

그런데 원본 리뷰 데이터가 수천, 수만건일 경우 수천 수만건을 개인이 일일이 하나씩 봐가면서 전처리 작업을 진행해야 할 것 같은데 이 과정이 너무나 시간이 많이 소요되고 힘든 것 같습니다.

데이터 전처리시 이렇게 하나씩 데이터를 봐가면서 정제작업을 거치는 것이 정상적인 진행과정인지 너무 궁금합니다. ㅠ

질문 읽어주셔서 감사합니다!

빅데이터 텍스트마이닝

답변 1