train test 컬럼에 대한 질문입니다.

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

해결된 질문

작성

train과 test의 컬럼이 서로 다른경우가 시험에서 발생하는 경우가 잇나요?

이럴때는 train과 test의 교집합에 없는 컬럼들은

제 생각으론 삭제하는것이 어떤 처리방법보다 좋은것

같은데요

(train에만 잇다면 삭제하는게 test에 좋을것이고

test에만잇다면 train이 모델 훈련해도 해당 test컬럼과는 관련이없고) 제 생각이 맞나요?

또한 하나의 공통 컬럼에서

서로 교차하지않는 서로다른 데이터가 존재한다면

라벨이나 원핫인코딩을 진행할때 둘다 반드시

합쳐서 인코딩을 진행하고 분리해야하나요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

다른점이 한 번도 없었어요! 그렇지만 예시문제가 카테고리가 달라 출제 가능성이 있습니다.
삭제, 합쳐서 인코딩 어떤 처리 방식으로 진행하던 검증데이터 성능을 기준으로 평가하면 객관적입니다.
1. 다만 절대로 하면 안되는 것은 test데이터의 행은 삭제를 하면 안됩니다. (행의 수가 변경되면 안됨, 컬럼의 수는 상관없음)

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 김호준님.

질문하신 내용은 머신러닝 프로젝트에서 흔히 마주치는 상황 중 하나입니다. 시험 환경에서 train과 test 데이터의 컬럼이 서로 다를 수 있습니다. 이런 경우에는 모델이 예측할 때 train 데이터로 학습한 내용을 test 데이터에 직접적으로 적용할 수 없기 때문에 주의가 필요합니다.

컬럼 불일치 해결책:
- train 데이터에만 있는 컬럼은 test 데이터와 관련이 없으므로 모델 예측에 무의미할 수 있습니다. 따라서 해당 컬럼을 삭제하는 접근은 합리적입니다.
- 반대로 test 데이터에만 있는 컬럼은 train 데이터에서 학습되지 않았기 때문에 실제 예측에 차질이 생길 수 있습니다. 이 경우에도 해당 컬럼을 삭제하거나, 다른 방법을 고려해야 합니다.
레이블 인코딩과 원-핫 인코딩:
- 만약 공통 컬럼에서 train과 test가 다른 고유값을 가진다면, 인코딩을 위해 두 데이터셋을 합쳐서 진행하는 것이 좋습니다. 이는 상대방 데이터셋에 없는 값을 포함한 모델 예측에서 에러를 방지하기 위함입니다.
- 이전에도 유사한 상황에 대한 질문이 있었는데요, 자세한 비교 방법도 포함되어 있으니 참고하시면 좋겠습니다.

이 문제에 대한 다른 학생들의 질문과 지식공유자님의 자세한 답변을 참고하세요.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

train test 컬럼에 대한 질문입니다.