인프런 커뮤니티 질문&답변

박나현님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글(kaggle) 필사 전략

캐글 T2-1 타이타닉 질문있습니다.

해결된 질문

24.06.13 09:39 작성

·

77

0

  • EDA 단계에서 age, cabin에서 결측치가 있다는 것을 알았는데 혹시 이건 따로 처리를 하지 않아도 되는건가요?

 

  • y = y_train["Survived"]

    # sex만 원핫인코딩 됨

     

    features = ["Pclass", "Sex", "SibSp", "Parch"]

    X = pd.get_dummies(X_train[features])

    test = pd.get_dummies(X_test[features]) -> 이 4개 컬럼을 원핫인코딩 하셨는데 혹시 이 컬럼들을 선택한 기준이 있을까요?

     

    object가 아닌 열도 포함되어 있어서요 ! 나머지 cabin이나 embarked 같은 문자 데이터는 인코딩 안해도 되나요?

     

답변 1

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 13. 11:21

타이타익이 빅분기 대비 쉬운 데이터는 아니라서

쉽게 전체를 보여주기 위해서 선택 하였을 뿐 이유는 없습니다.

시험에서는 전체 데이터를 사용해주세요!

그리고 범주형이 있다면 인코딩 하면됩니다. 💪 아래쪽에 있는 작업형2는 만든지 꽤 시간이 흘러
위쪽에 2024.05~06에 만든 작업형2 위주로 참고해주세요!!

박나현님의 프로필 이미지
박나현
질문자

2024. 06. 13. 12:00

감사합니다아 🥹🥹