인프런 커뮤니티 질문&답변

엠엠님의 프로필 이미지
엠엠

작성한 질문수

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[3/4] CountVectorizer로 텍스트 데이터 벡터화

fit_transform에 대해 질문 드립니다.

작성

·

280

1

1. pipeline.fit_transform의 기능에 대해 이해가 잘 가지 않습니다.
원래 clean_train_reviews는 아래 그림과 같이 단어들이 들어가 있었는데
pipeline.fit_transform을 실행하니, 아래와 같이 바뀌었네요.
아래의 튜플의 숫자들은 어떤 의미를 갖고 있는건가요??
2. 머신러닝에 관한 개념이나 지식이 없어서 그런지... 이전의 데이터 분석 강의와는 난이도가 다르게 느껴지네요...
혹시 참고할만한 자료가 있을까요?

답변 2

1

엠엠님의 프로필 이미지
엠엠
질문자

https://radish-greens.tistory.com/3

https://m.blog.naver.com/PostView.nhn?blogId=pica4star&logNo=221409611243&proxyReferer=https:%2F%2Fwww.google.com%2F

이 블로그를 참고해서 CountVectorizer에 대해 알 수 있었습니다!

0

박조은님의 프로필 이미지
박조은
지식공유자

안녕하세요.

자연어처리는 아쉽게도 난이도가 좀 있는 편이에요. 

어려워 하시는 분들이 많이 계셔서 이 강의도 내년 상반기에는 일부 업데이트 계획이 있습니다.

아래 내용은 제가 파이콘이라는 곳에서 발표했던 내용의 일부인데요.

참고해 주신 링크처럼 CountVectorizer는 텍스트 데이터를 벡터화 할때 사용해요.

해당 단어가 문장에서 얼마나 빈번하게 등장하는지를 카운트 하게 되는데 이 때 순서가 무시되는 단점이 있어요.

그래서 그걸 보완하게 된게 n-gram 인데 단어를 여러개 묶어서 사용하게 되면 순서가 무시되는 것을 어느정도 보완할 수 있어요.

또, 벡터화 할 때의 단점이 많이 등장하는 단어가 빈도수가 높아져서 불용어(은는이가 등의 조사나 나, 너 등의 대명사)가 많으면 문장의 뜻을 이해하기 어렵기 때문에 전체 문서에서는 자주 등장하지는 않지만 특정 문서에서 자주 등장하는 단어에 가중치를 주는 것을 TF-IDF 라는 방법을 사용해서 개선합니다.

그리고 제 유튜브 콘텐츠 중에 댓글 분석 콘텐츠가 있는데 이 강좌와 함께 보시면 좋을거 같아요.

[ 댓글 수백 수천개 분석하기?! [1/5] 이벤트 데이터 크롤링 feat. 인프런 새해 다짐 이벤트 - YouTube](https://www.youtube.com/watch?v=OUSwQk79H8I&list=PLaTc2c6yEwmohRzCxWQqJ7Z9aqc-sQ5gC)

엠엠님의 프로필 이미지
엠엠

작성한 질문수

질문하기