인프런 커뮤니티 질문&답변

김석종님의 프로필 이미지
김석종

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

5회 기출유형 (작업형2)

train값과 test값 unique값이 다를 경우에는 어떻게 하면 되나요?

해결된 질문

작성

·

272

0

train값과 test값 unique값이 다를 경우에는 어떻게 하면 되나요? 저번 수업영상에서 두개를 합친 다음에 인코딩을 진행한다고 하셨던거 같은데 다시 한번 질문드립니다.

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

이렇게 코딩할 수 있어요💪

train 데이터 길이는 shape이나 len으로 확인할 수 있고
데이터를 나눌때는 아래와 같이 작업하거나 loc/iloc를 활용할 수도 있어요!

combined = pd.concat([train, test]) # 데이터 합치기
combined_dummies = pd.get_dummies(combined) # 원핫 인코딩
n_train = len(train) # train길이 확인

train = combined_dummies[:n_train] # train데이터 나누기
test = combined_dummies[n_train:] # test데이터 나누기

test = test.drop('target', axis=1) # test데이터에 target컬럼 제거

 

김석종님의 프로필 이미지
김석종
질문자

감사합니다!

김석종님의 프로필 이미지
김석종

작성한 질문수

질문하기