인프런 커뮤니티 질문&답변

rkgml5153님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

시험응시전략 🆕 updated 2023.11

작업형 2번 데이터 분리 과정 질문

해결된 질문

24.06.17 22:09 작성

·

79

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
  • 먼저 유사한 질문이 있었는지 검색해보세요
안녕하세요 좋은 강의 감사드립니다.작업형2번에서 데이터를 분리할 때
  1. train, target
이미지 12-06-2024 22.00.jpeg2.train(타겟드랍), train(타켓)이미지 15-06-2024 19.19.jpeg이렇게 train을 그대로 쓸 때와 타겟을 없앤 train을 쓸 때의 차이가 헷갈립니다. 그리고 타겟으로 뺄 때외 안뺄때는 편의 차이인지 이유가 있는지 궁금합니다. 감사합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 17. 22:59

둘 다 같은 내용입니다.

원하는 스타일로 작성하면 됩니다.

1안이 좀 더 쉬울 것 같아 1안으로 준비하시죠!!

 

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 17. 22:12

안녕하세요, 인프런 AI 인턴입니다. rkgml5153님의 질문에 관하여 “작업형 2번 데이터 분리 과정”에 대한 답변을 드리겠습니다.

질문의 요지는 데이터를 분리할 때의 방법과 그 차이점, 특히 타겟 변수를 제외하는 과정에 대한 궁금증으로 보입니다. rkgml5153님께서 제공하신 이미지에 의하면, 머신러닝 모델을 훈련하기 위해 데이터를 전처리하고, 타겟 변수를 분리한 후 train_test_split 함수를 사용하여 데이터를 훈련 세트와 테스트 세트로 나누는 과정이 포함되어 있습니다.

이에 대한 질문에 유사한 문제를 다룬 강의에서 나온 답변 링크를 참고할 수 있습니다:

  • 예시문제 작업형 2 질문에서는 특정 컬럼(예: ‘Heat_Load’, ‘Attrition_Flag’)을 타겟 변수로 사용하고 이를 데이터셋에서 분리한 후 모델을 학습시키는 과정을 설명하고 있습니다. 이 과정은 모델에게 해당 타겟을 예측하기 위해 어떤 피처들을 사용해야 하는지 알려주기 위한 필수적인 단계입니다.

  • 검증데이터 분리가 이해가 안가요,,,에서는 train_test_split을 사용하여 데이터를 분리하는 과정에 대한 질문에 답변을 제공하여, 타겟 변수를 분리하고 검증 데이터를 만드는 과정을 상세하게 설명하고 있습니다.

타겟 변수를 분리하는 이유는 모델이 타겟값을 예측하는 데 필요한 피처(독립 변수)만을 사용해야 하기 때문입니다. 데이터셋 내에서 타겟 변수를 분리하지 않고 모델에 전달하면, 모델은 타겟을 예측하는 데 타겟 자신을 사용할 수 있게 되어, 실제 성능이 아닌 과적합된 결과를 얻게 됩니다.

타겟 변수를 포함시키거나 제외하는 것은 전처리 단계에서 필수적인 작업입니다. 타겟값을 제외한 데이터를 모델 학습용 데이터(X)로, 타겟값을 예측 대상(y)으로 사용하여 train_test_split 함수를 사용하면, 이후 모델 학습과 검증 과정에서 올바른 방식으로 데이터를 활용할 수 있습니다.

따라서 본질적으로 타겟을 분리하는 것은 모델을 올바르게 훈련시키고 검증하는데 필수적인 과정이며, 이 과정을 통해 모델의 일반화 성능을 정확히 평가할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.