인프런 커뮤니티 질문&답변

mhongc님의 프로필 이미지
mhongc

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

인코딩 질문입니다..

해결된 질문

작성

·

139

0

이와 같이 mode 변수의 클래스 수가 다른데...

ct = make_column_transformer((OneHotEncoder(sparse=False), col_cat), (StandardScaler(), col_num))

ct.fit(X)

X = ct.transform(X)

X_te = ct.transform(X_te)

print(X.shape)

print(X_te.shape)

이것을 적용하니...

(7468, 37)
(3200, 37)
이렇게 컬럼이 동일해졌습니다...
make_column_transformer가 컬럼 수를 맞춰주는 기능도 있나요?
이해가 잘 안갑니다..ㅠㅠ 

답변 2

1

mhongc님의 프로필 이미지
mhongc
질문자

앗.. 그렇군요...ㅋ.. 감사합니다...^^

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

자동으로 맞춰진 것은 아니고요!

사이킷런 원핫인코딩을 사용해서 train 컬럼의 종류로 학습된 후 테스트를 인코딩한 결과 입니다

 

이 경우 트레인 26개가 테스트 22개를 포함하고 있어요! 26개를 기준으로 원핫인코딩을 테스트에 적용했어요.

만약 반대였다면 22개로 다 표현할 수가 없어 에러가 발생할 것 같네요!

mhongc님의 프로필 이미지
mhongc

작성한 질문수

질문하기