인프런 커뮤니티 질문&답변

jcol13님의 프로필 이미지
jcol13

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

5회 기출유형 (작업형2)

train, test 범주형 컬럼의 고유값이 같은지 확인하는 코딩은 없나요

작성

·

22

0

19개 종류를 다 비교 하기 쉽지 않습니다.

그리고 만약 train에 없는 고유값이 test에서 있으면 데이터를 합친다고 했는데, 범주형을 합쳐서 인코딩 한 다음에 다시 분리 할때는 loc, iloc 사용하나요? 그래서 처음 shape의 데이터 크기로 똑같이 맞춰야 하는거죠?

예를 들면 train.shape (6118,10) test.shape (1724,9) 라면 처음에 concat를 통해 6118+1724 로 해서 범주형 인코딩 하고 다시 원래 대로 크기를 쪼개야 하는거죠?

 

image.png

답변 2

0

네 컬럼개수만 맞춰주면 되고영 그래서 iloc하면서 길이 헷갈리거나 하지 않게 아예 이렇게 쓰면 좋은걸로 알고있어요

X_train_processed = X_traintest_concat[:len(X_train_original)]
X_test_processed = X_traintest_concat[len(X_train_original):]

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 새소식에 올린 글을 확인해 주세요

    image.png

    설명이 되어 있습니다 🙂

 

jcol13님의 프로필 이미지
jcol13

작성한 질문수

질문하기