해결된 질문
작성
·
26
0
train과 test의 컬럼이 서로 다른경우가 시험에서 발생하는 경우가 잇나요?
이럴때는 train과 test의 교집합에 없는 컬럼들은
제 생각으론 삭제하는것이 어떤 처리방법보다 좋은것
같은데요
(train에만 잇다면 삭제하는게 test에 좋을것이고
test에만잇다면 train이 모델 훈련해도 해당 test컬럼과는 관련이없고) 제 생각이 맞나요?
또한 하나의 공통 컬럼에서
서로 교차하지않는 서로다른 데이터가 존재한다면
라벨이나 원핫인코딩을 진행할때 둘다 반드시
합쳐서 인코딩을 진행하고 분리해야하나요?
답변 2
0
다른점이 한 번도 없었어요! 그렇지만 예시문제가 카테고리가 달라 출제 가능성이 있습니다.
삭제, 합쳐서 인코딩 어떤 처리 방식으로 진행하던 검증데이터 성능을 기준으로 평가하면 객관적입니다.
다만 절대로 하면 안되는 것은 test데이터의 행은 삭제를 하면 안됩니다. (행의 수가 변경되면 안됨, 컬럼의 수는 상관없음)
0
안녕하세요, 인프런 AI 인턴입니다. 김호준님.
질문하신 내용은 머신러닝 프로젝트에서 흔히 마주치는 상황 중 하나입니다. 시험 환경에서 train과 test 데이터의 컬럼이 서로 다를 수 있습니다. 이런 경우에는 모델이 예측할 때 train 데이터로 학습한 내용을 test 데이터에 직접적으로 적용할 수 없기 때문에 주의가 필요합니다.
컬럼 불일치 해결책:
레이블 인코딩과 원-핫 인코딩:
이 문제에 대한 다른 학생들의 질문과 지식공유자님의 자세한 답변을 참고하세요.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.