안녕하세요 선생님. 먼저 좋은 강의 감사합니다.다름이 아니라, feature vectorization 부분 관련 질문이 있어 이렇게 글을 씁니다.강의 4분 정도에 name은 CountVectorizer를 쓰고 item_description은 상대적으로 길어서 TfidfVectorizer를 쓴다고 하셨는데,그렇다면 해당 데이터셋이 아닌 다른 데이터셋에 적용할 때도 컬럼의 길이가 상대적으로 짧으면 CountVectorizer, 상대적으로 길면 TfidfVectorizer를 써야된다고 이해를 해도 괜찮을걸까요?감사합니다.

안녕하십니까, 네, 그렇게 이해하셔도 될 것 같습니다. 100% 그렇다고는 할수 없지만, 전반적으로 문자열이 긴 경우 Count보다는 TF-IDF가 좀 더 성능이 좋습니다. 감사합니다.

인프런 커뮤니티 질문&답변

강의 4:02 부분 vectorizer 질문