작성
·
53
0
안녕하세요 강의 잘듣고 있습니다. 감사합니다.
실습 내용 중에 질문이 있습니다.
워드클라우드 그리는 예시에서
워드클라우드에서 '했다', '하는', '한다' ,' 밝혔다' 이런 동사 형태가 많이 보이는데 어떻게 해결 해야 할까요?
워드클라우드에서 '인공지능'이 '인공', '지능' 으로 분리되어 나타나는데 '인공지능'으로 합쳐서 집계되고 표현되게 하려면 어떻게 하나요?
'오늘', '현재', '한국', 오후' 이런 단어는 지우고 싶은데 어떻게 하면 되나요?
전처리 과정을 어떻게 해야하는지 궁금합니다..!
답변 부탁드립니다. 감사합니다.
답변 2
0
안녕하세요 답변 감사드립니다! 해당 강의도 봤는데... 위의 3가지 경우에 대해서 구체적으로 어떻게 해야하는지를 모르겠습니다.....ㅜㅜ
워드클라우드에서 '했다', '하는', '한다' ,' 밝혔다' 이런 동사 형태가 많이 보이는데 어떻게 해결 해야 할까요? -> '했다', '하는', '한다' ,' 밝혔다' 이런 동사 형태 삭제하고 싶으면 정제 단어 엑셀 파일에서 왼쪽 셀에 해당 단어 입력하고 옆 셀에다가 공백으로 두면 될까요?
-->네 맞습니다.
워드클라우드에서 '인공지능'이 '인공', '지능' 으로 분리되어 나타나는데 '인공지능'으로 합쳐서 집계되고 표현되게 하려면 어떻게 하나요? -> 정제 단어 엑셀파일에서 왼쪽 셀에 '인공' 쓰고 오그 그 옆 셀에 '인공지능' 이라고 수정하는 방식인가요? 그러면 '지능'은 삭제해버리는 걸까요?->왼쪽의 "인공 지능" 을 오른쪽에 "인공지능"이라고 수정하시면 됩니다.
'오늘', '현재', '한국', 오후' 이런 단어는 지우고 싶은데 어떻게 하면 되나요? -> '오늘', '현재', '한국', 오후' 이런 단어도 정제 단어 엑셀 파일에서 왼쪽 셀에 해당 단어 입력하고 옆 셀에다가 공백으로 두면 될까요?->네 맞습니다.
혹시 이렇게 처리하면 되는 것인지 문의드립니다.
감사합니다.
답변 감사합니다.
'인공', '지능'을 '인공지능'으로 합치려면
"정제 단어 엑셀파일에서 왼쪽의 "인공 지능" 을 오른쪽에 "인공지능"이라고 수정하시면 됩니다." 라고 답변 주셨는데
워드 클라우드 그리는 코드에서 어느 단계에서 저 작업을 추가하면 되는 걸까요?? tokenizer 함수를 적용하기 전에 사용해야 되는 걸까요?
tokenizer 함수 적용 이후에는 이미 '인공'과 '지능'으로 쪼개져 있습니다!
답변 부탁드립니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
chanee03님, 텍스트 전처리 과정에서 자주 접하는 문제들에 대한 질문을 주셨군요. 다행히도, 이러한 문제들을 해결하기 위한 방법은 많이 연구되어 있으며 몇가지 일반적 해결책을 제시해 드립니다.
워드클라우드에서 불필요한 동사 형태
불필요한 동사들은 일반적으로 명사 중심의 분석을 원할 때 제거합니다. 형태소 분석기로 모든 단어의 형태소를 파악한 뒤, 필요한 품사(예: 명사)만 추출하여 워드클라우드를 생성할 수 있습니다. 기존의 데이터 전처리 관련 질문드립니다 게시물에서 형태소 분석을 적용하고 불용어 제거하는 과정을 설명하는 예시를 찾아볼 수 있습니다.
문장 내 단어 합치기
두 번째 문제인 ‘인공지능’을 하나의 단어로 인식시키는 방법은 사용자 정의 사전을 활용할 수 있습니다. okt
분석기 등에서 사용자 정의 사전에 해당 단어를 등록하면 분리되지 않고 하나로 처리될 것입니다. 원하는 결과를 얻기위한 데이터 전처리 기법 게시물도 참고해 보세요.
특정 단어 제거
‘오늘’, ‘현재’, ‘한국’, ‘오후’와 같은 특정 단어를 제거하려면 불용어 목록에 이 단어들을 추가하고 전처리 과정에서 제거해야 합니다. 텍스트 마이닝 과정에서 빈도 비율을 분석하여 제거할 단어를 정하는 것도 하나의 방법입니다.
이외에도, 텍스트 전처리 과정은 데이터의 특성과 목표에 따라 달라질 수 있습니다. 즉, 특정 방식이 항상 정답일 수는 없습니다. 이런 경우 기 정제한 데이터의 영문 수정 가능 여부에서도 유사한 텍스트 전처리에 대한 질문과 해결 방법을 확인할 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
안녕하세요 답변 감사드립니다! 해당 강의도 봤는데... 위의 3가지 경우에 대해서 구체적으로 어떻게 해야하는지를 모르겠습니다.....ㅜㅜ
워드클라우드에서 '했다', '하는', '한다' ,' 밝혔다' 이런 동사 형태가 많이 보이는데 어떻게 해결 해야 할까요? -> '했다', '하는', '한다' ,' 밝혔다' 이런 동사 형태 삭제하고 싶으면 정제 단어 엑셀 파일에서 왼쪽 셀에 해당 단어 입력하고 옆 셀에다가 공백으로 두면 될까요?
워드클라우드에서 '인공지능'이 '인공', '지능' 으로 분리되어 나타나는데 '인공지능'으로 합쳐서 집계되고 표현되게 하려면 어떻게 하나요? -> 정제 단어 엑셀파일에서 왼쪽 셀에 '인공' 쓰고 오그 그 옆 셀에 '인공지능' 이라고 수정하는 방식인가요? 그러면 '지능'은 삭제해버리는 걸까요?
'오늘', '현재', '한국', 오후' 이런 단어는 지우고 싶은데 어떻게 하면 되나요? -> '오늘', '현재', '한국', 오후' 이런 단어도 정제 단어 엑셀 파일에서 왼쪽 셀에 해당 단어 입력하고 옆 셀에다가 공백으로 두면 될까요?
혹시 이렇게 처리하면 되는 것인지 문의드립니다.
감사합니다.