작업2

인프런 커뮤니티 질문&답변

munjihey1127

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

해결된 질문

작성

174

1. 빠르게(인코딩 없이 드랍) 베이스라인을 만들고 (데이터 분할과 랜덤포레스트 모델 random_state값 고정) 검증 - 1차 제출

인코딩 후 검증 -> 점수 좋아졌다면 - 2차 제출
(결측치가 있다면) 결측치 처리 다양한 방식 시도 - 3차 제출

다른 질문에서 이렇게 답변하셨는데

인코딩 없이 드랍시에도

데이터분할 treain_test_split 을 해야하는거군요??

처음부터 드랍말고 라벨인코딩이나 원핫인코딩을 하면 무조건 성능이 좋은건 아닌가요?

라벨인코딩과 원핫인코딩 둘중 하나를 선택하셔서 풀이하시던데

기준이 궁금합니다

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

퇴근후딴짓

지식공유자

처음부터 드랍말고 라벨인코딩이나 원핫인코딩을 하면 무조건 성능이 좋은건 아닌가요?

네, 처음부터 인코딩 하는 것이 좋습니다. 다만 인코딩에서 에러가 나서 전체를 버리는 일은 만들지 않기 위해 단계별로 설명하고 있어요! 또한 그 성능을 비교하기 위해서는 데이터분할 train_test_split이 필요합니다. 성능 비교가 필요없다면 분할할 필요는 없습니다.

라벨인코딩과 원핫인코딩 둘중 하나를 선택하셔서 풀이하시던데 기준이 궁금합니다

랜덤으로 선택했어요! train_test_split을 통해서 둘 다 확인해보고 좋은 성능의 인코딩을 선택합니다 🙂

(카테고리가 너무 많으면 원핫인코딩은 선택하지 않아요)

munjihey1127

작성한 질문수

전체 Q&A

질문하기