해결된 질문
작성
·
103
0
EDA 단계에서 age, cabin에서 결측치가 있다는 것을 알았는데 혹시 이건 따로 처리를 하지 않아도 되는건가요?
y = y_train["Survived"]
# sex만 원핫인코딩 됨
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(X_train[features])
test = pd.get_dummies(X_test[features]) -> 이 4개 컬럼을 원핫인코딩 하셨는데 혹시 이 컬럼들을 선택한 기준이 있을까요?
object가 아닌 열도 포함되어 있어서요 ! 나머지 cabin이나 embarked 같은 문자 데이터는 인코딩 안해도 되나요?
답변 1
1
타이타익이 빅분기 대비 쉬운 데이터는 아니라서
쉽게 전체를 보여주기 위해서 선택 하였을 뿐 이유는 없습니다.
시험에서는 전체 데이터를 사용해주세요!
그리고 범주형이 있다면 인코딩 하면됩니다. 💪 아래쪽에 있는 작업형2는 만든지 꽤 시간이 흘러
위쪽에 2024.05~06에 만든 작업형2 위주로 참고해주세요!!
감사합니다아 🥹🥹