해결된 질문
작성
·
141
0
print(X_train.describe())
print(X_test.describe())
cond1=X_train['총구매액']>=0
cond2=X_train['최대구매액']>=0
cond3=X_test['총구매액']>=0
cond4=X_test['총구매액']>=0
x_train 과 x_test 총구매액과 최대구매액에
음수가 존재하는데 이럴경우는 해당 행을 어떻게
처리하면될까요?
test 데이터의 경우 칼럼은 필요시 삭제 가능하다
행은 삭제하면 안된다고 강의에서 배워서
질문드립니다.
수치형 데이터의 경우 민맥스 스케일, 혹은 스탠다드 스케일ㄹ로 스케일링 하므로, 음수(이상치) 처리는 크게
신경쓰지 않아도될것 같기도하구요..!
답변 1
0
해당 도메인 데이터에 대해 우리는 잘 알지 못합니다. 이상치에 대한 안내가 별도로 있는 것도 아닙니다.
train과 test둘다 음수값이 존재 한다면 해당 도메인에서 이유가 있을 것입니다.
그대로 두는 것이 좋을 것 같아요!
만약 train에만 있고 test에는 없다면 삭제를 고민해볼 수 있지만 그 상황이 아니라면 고민할 필요 없습니다.
그냥 두세요!!
넵 명심하겠습니다 ㅎㅎ