인프런 커뮤니티 질문&답변

inflearn님의 프로필 이미지
inflearn

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

인코딩 에러

해결된 질문

작성

·

140

0

인코딩할때 범주형 변수의 train 과 test 고유값의 수가

train < test

train != test

위의 경우일 때 인코딩을 진행하면 무조건 에러가 발생하나요?

 

고유값의 수가 일치하는지 확인하지 않고 바로 인코딩을 진행하려고 하는데

진행하다가 에러가 발생하면 컨캣을 진행하려고 합니다.

 

object 컬럼이 4개이면 4개다 고유값의 수를 확인해야하는거죠??

set () - set() 이런식으로 빼서 컬럼마다 확인해야하는 방법밖에 없는 걸까요?

 

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

train < test

train != test

위의 경우일 때 인코딩을 진행하면 무조건 에러가 발생하나요?

크다 작다 관계가 아니라 집합의 관계로 봐야해요 어디서 어디를 포함하고 있는지가 중요해요.
"무조건"이란 말은 적용하기 어렵습니다. 에러가 난다면 합쳐서 진행해주세요!

object 컬럼이 4개이면 4개다 고유값의 수를 확인해야하는거죠??

네 안전한 방법입니다.

set () - set() 이런식으로 빼서 컬럼마다 확인해야하는 방법밖에 없는 걸까요?

아니요 방법은 많습니다. 예를 들어 value_counts()방법으로 확인해도 됩니다.

컬럼마다 확인하는 것이 어려우면 반복문을 사용해주세요!

inflearn님의 프로필 이미지
inflearn

작성한 질문수

질문하기