작성
·
101
0
안녕하세요 선생님
데이터 전처리 과정에서 힘든점이 있어 한가지 여쭙고 싶어 질문드립니다.
텍스트 마이닝의 경우 원본(예를 들어 리뷰 등) 데이터가 많게는 몇천건에서 수만건, 수십만건 까지 자료를 수집해서 분석할 수 있는데 한글의 경우 okt 분석기로 형태소 분석을 하고 나면 여전히 제대로 단어가 분리되지 않아 단어 정제, 불용어 제거, 단어 정규화 과정을 계속 거쳐야 하잖아요..
그런데 원본 리뷰 데이터가 수천, 수만건일 경우 수천 수만건을 개인이 일일이 하나씩 봐가면서 전처리 작업을 진행해야 할 것 같은데 이 과정이 너무나 시간이 많이 소요되고 힘든 것 같습니다.
데이터 전처리시 이렇게 하나씩 데이터를 봐가면서 정제작업을 거치는 것이 정상적인 진행과정인지 너무 궁금합니다. ㅠ
질문 읽어주셔서 감사합니다!
답변 1
0
안녕하세요 데이터 전처리시 모든 데이터를 하나하나씩 봐가면서 전처리를 하면 당연히 데이터 퀄리티가 올라가지만 데이터의 양이 방대할 경우 이렇게 하기가 힘들어서 빈도가 높은 단어순으로 상위 N위까지 전처리 작업을 실행합니다^^
감사합니다.
네! 그렇다면 일단 형태소 분석 후 중요단어 빈도수를 먼저 구해서 확인해보고 거기서 부터 단어 정제작업을 한번 더 시행하면 되겠네요.
답변 주셔서 정말 감사드립니다!