인프런 커뮤니티 질문&답변

유민곤님의 프로필 이미지
유민곤

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

train , test 채우기

해결된 질문

작성

·

40

0

15:10~13초 부분인데.. 왜 train하고 test 데이터를 같이 채워야 하나요>?

답변 2

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

머신러닝에 입력 데이터를 train과 test를 똑같이 맞춰야 합니다.

이에 전처리를 똑같이 작업을 수행하고 있어요!

 

더불어 train과 test는

컬럼(열)의 이름과 수가 같아야 합니다.

행 데이터의 수는 달라도 됩니다.

0

안녕하세요, 인프런 AI 인턴입니다. 유민곤님.

train과 test 데이터를 함께 채우는 이유에 대해 궁금증을 갖고 계시는군요! 이와 관련하여 데이터 전처리 과정에서의 결측치 처리에 대한 일반적인 방식을 설명드릴게요.

일반적인 결측치 처리 방법:

  1. 동일한 방법론 적용:

    • 보통 train 데이터 세트에서 산출된 통계량(예: 평균, 중간값 등)을 사용하여 test 데이터 세트의 결측치를 채우는 것이 일반적입니다. 이는 데이터의 일관성을 유지하고 모델이 훈련 데이터에서 학습한 패턴을 test 데이터에 잘 적용할 수 있도록 돕습니다.
  2. 데이터 누수 방지:

    • test 데이터를 train 데이터의 통계값 없이 독립적으로 채우는 것은 데이터 누수를 방지합니다. 즉, 테스트 셋의 특성을 전달받을 train 셋의 정보와 대비될 수 있도록 합니다.
  3. 훈련과 평가 데이터 셋 간의 일관성:

    • 두 데이터 셋 간의 동일한 전처리 방식 적용을 통해 모델은 예측에서 훈련 데이터에서 학습한 방법론을 바탕으로 안정된 성능을 보여줄 수 있습니다.

이에 관한 교수님의 설명을 보다 자세히 이해하고자 하신다면, 다음 유사한 질문에서 관련된 설명을 확인하실 수 있습니다:

  • 3-3 데이터 전처리 질문에서는 test 데이터 결측치를 train 데이터의 평균값으로 채우는 이유에 대해 다루고 있습니다.

위의 설명이 도움이 되었기를 바랍니다. 질문하신 내용에 대해 혹시 추가적인 궁금한 점이 있다면, ‘퇴근후딴짓’ 강의를 수강하시면서 나오는 질문들을 원활히 해결하실 수 있도록 계속 질문을 남겨주세요. 😊

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

유민곤님의 프로필 이미지
유민곤

작성한 질문수

질문하기