해결된 질문
작성
·
299
0
안녕하세요 선생님. 먼저 좋은 강의 감사합니다.
다름이 아니라, feature vectorization 부분 관련 질문이 있어 이렇게 글을 씁니다.
강의 4분 정도에 name은 CountVectorizer를 쓰고 item_description은 상대적으로 길어서 TfidfVectorizer를 쓴다고 하셨는데,
그렇다면 해당 데이터셋이 아닌 다른 데이터셋에 적용할 때도 컬럼의 길이가 상대적으로 짧으면 CountVectorizer, 상대적으로 길면 TfidfVectorizer를 써야된다고 이해를 해도 괜찮을걸까요?
감사합니다.
답변 1
0
안녕하십니까,
네, 그렇게 이해하셔도 될 것 같습니다.
100% 그렇다고는 할수 없지만, 전반적으로 문자열이 긴 경우 Count보다는 TF-IDF가 좀 더 성능이 좋습니다.
감사합니다.
확인 감사합니다!