인프런 커뮤니티 질문&답변

baek님의 프로필 이미지
baek

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글(kaggle) 필사 전략

캐글 작업형 2 문의 사항

해결된 질문

작성

·

196

·

수정됨

0

  1. 캐글 작업형 2 (T2-6. Bike-Regressor)

파일까지 생성 후, 다운로드 후 submit을 누르면 아래와 같은

메세지가 납니다. 이유 확인 부탁드립니다.

  1. 캐글 작업형 (T 2-3 Adult census ~)

 

1) 라벨 인코딩 오류

object 컬럼을 라벨 인코딩 진행 시 위와 같은 에러가 발생합니다. 인터넷을 찾아보니 문자열과 숫자가 혼합되어 있는지 확인하라고 하는데, Object 컬럼 ('workclass') 1개만 선택해서 해도 변환이 안되는데.. 확인 부탁드립니다.

2) 원핫 인코딩 시 train, test 열 차이

원핫 인코딩을 진행 후, 열 갯수가 1개 차이가 났다가,

민맥스 스케일링 후 다시 52개로 맞춰졌습니다.

test로 학습 후 결과 제출 시에는 52, 51 개로 결국 1개 차이가 나서 오류가 나는데요.. 이유를 알 수 있을까요?

 

 

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

T2-6. Bike-Regressor

서브밋 에러는 캐글과 관련이 있는데 이 부분은 제가 확인할 수 없습니다.

 

2, 3번

혹시 타겟을 분리 했을까요? 타겟이 범주형일 경우 인코딩 전에 분리가 필요합니다.

아마도 train에 있는 타겟 때문이지 않을까 싶어요

인코딩 관련해서 추가 영상을 급히 촬영해서 하단에 추가했어요 참고 부탁드립니다.

baek님의 프로필 이미지
baek
질문자

2,3번)

기존 X_train에 타켓이 없었고 y_train에만 있어 Target을 분리할 필요가 없었습니다.

원핫 인코딩 후 차이를 보니 아래와 같은 차이가 있는데, 하나씩 다 처리해야하는걸까요?

  1. 특정 컬럼에 특정 값이 X_train에만 존재함 -> X_train 에만 존재하는 값을 삭제함

     

  2. 특정 컬럼의 값이 X_train은 A만, X_test는 B만 존재함

     -> 어떤 데이터로 맞춰야 하는 것인가요?

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

아 이해했습니다. 컬럼에서 카테고리 차이가 있군요!!

혹시 새로 추가한 인코딩 영상을 보셨을까요?

이럴 경우 합쳐서 인코딩을 진행해주셔야 합니다 🙂

baek님의 프로필 이미지
baek
질문자

넵! 인코딩 영상 참고해서 다시 풀어보겠습니다!

감사합니다 :)

baek님의 프로필 이미지
baek

작성한 질문수

질문하기