데이터 분리하기 문의드립니다.

Question

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요

라이브러리 및 데이터불러오기 20분지점

주어진 데이터 분리하기

train=pd.read_csv("train.csv")

test=pd.read_csv("test.csv")

가 주어졌습니다.

이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.

train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,

여기서는 income을 삭제했는데 왜 삭제했는지

이해가 안 갑니다. 설명을 바랍니다.

퇴근후딴짓 · Answer

주어진 데이터를 합쳤다가 분리를 진행했어요

train과 test를 합쳤는데 이때 train에는 income데이터가 있고

test에는 income 데이터가 없다보니

합쳤다가 분리하면 test에 income 컬럼이 생기게 됩니다 (모두 결측치)

이에 해당 컬럼을 삭제할 필요가 있어 삭제했어요!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 강민균님, 주어진 데이터에서 train 과 test 를 분리하는 과정은 흔히 머신러닝 모델을 훈련하고 평가하기 위해 사용하는 기본적인 절차입니다. train 데이터는 모델을 학습시키는 데 사용되며, test 데이터는 학습된 모델의 성능을 평가하는 데 사용됩니다. 이렇게 데이터를 분리하는 이유는 모델이 보지 못한 새로운 데이터를 얼마나 잘 예측하는지 확인하기 위해서입니다. 타겟 레이블(target label)을 생성하는 과정에서, 만약 income 변수와 같은 특정 변수(레벨)가 삭제된다면 이는 보통 해당 변수가 예측의 대상이 되기 때문입니다. 즉, income 을 예측하기 위해 다른 변수들을 활용하여 모델을 학습시키고자 하는 경우가 많습니다. 그렇기 때문에 목표 변수는 train 데이터에서 제거될 수 있습니다. 보다 세부적인 설명이나 단계는 해당 강의의 구체적인 지점에서 제공될 수 있기 때문에, 관련된 영상의 해당 위치를 다시 한번 확인해 보는 것도 좋은 방법입니다. 추가로, 수강 전 문의 게시판이나 문의하기 기능을 통해 강의자에게 직접 질문을 남기시면 더 구체적인 답변을 얻으실 수 있습니다. 강의 자료 관련해서는 여기 를 참고해 주세요.

인프런 커뮤니티 질문&답변

데이터 분리하기 문의드립니다.