인프런 커뮤니티 질문&답변

최원빈님의 프로필 이미지
최원빈

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

실전 텍스트 분석: 04 - Mercari Price Suggestion 피처 인코딩과 피처 벡터화 수행

강의 4:02 부분 vectorizer 질문

해결된 질문

작성

·

299

0

안녕하세요 선생님. 먼저 좋은 강의 감사합니다.

다름이 아니라, feature vectorization 부분 관련 질문이 있어 이렇게 글을 씁니다.

강의 4분 정도에 name은 CountVectorizer를 쓰고 item_description은 상대적으로 길어서 TfidfVectorizer를 쓴다고 하셨는데,

그렇다면 해당 데이터셋이 아닌 다른 데이터셋에 적용할 때도 컬럼의 길이가 상대적으로 짧으면 CountVectorizer, 상대적으로 길면 TfidfVectorizer를 써야된다고 이해를 해도 괜찮을걸까요?

감사합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

네, 그렇게 이해하셔도 될 것 같습니다.

100% 그렇다고는 할수 없지만, 전반적으로 문자열이 긴 경우 Count보다는 TF-IDF가 좀 더 성능이 좋습니다.

감사합니다.

최원빈님의 프로필 이미지
최원빈
질문자

확인 감사합니다!

 

최원빈님의 프로필 이미지
최원빈

작성한 질문수

질문하기