인프런 커뮤니티 질문&답변

최지훈님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

(섹션5) train_test_split 관련 질문

해결된 질문

24.06.14 23:26 작성

·

93

0

  • 안녕하세요.

     

  • 섹션5 [작업형2] 모의문제 및 캐글 - 2번쨰 강의 관련 질문입니다.

  • 검증데이터 분리 시 아래와 같이 코드를 적었는데,

     

    from sklearn.model_selection import train_test_split

  • X_tr, X_val, y_tr, y_val = train_test_split(train.drop('price', axis=1),

    train['price'], test_size = 0.15, random_state=2022)

    • 윗 행에서 train.drop('price') 후, train['price']을 하는 이유가 뭔가요?

    • 'price'값이 타겟이기 떄문에

      X_tr 은 'price'가 없어야 하고,

    • 반면, X_val은 'price'만 있어야 하니까 위 코드가 나온게 맞는것인지요?

      감사합니다.

답변 2

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 15. 02:17

  • 타겟 분리: train.drop('price', axis=1)을 통해 'price' 컬럼을 제외한 나머지 컬럼을 입력 데이터로(X)로 만듭니다. 'price' 컬럼은 예측하려는 값이기 때문에 X 데이터에서는 제외해야 합니다.

  • 타겟 : train['price']를 통해 'price' 컬럼만을 선택하여 타겟 (y)를 만듭니다. 모델을 학습할 때 이 값을 예측해야 하기 때문에 별도로 분리합니다.

    위 코드가 어렵다면 아래와 같이 사용가능합니다.

     

    pop()은 1과 2를 수행합니다.
    1. train = train.drop('price', axis=1)
    2. target = train['price']

    # 타겟 변수 분리
    target = train.pop('price')
    
    # 데이터 분할
    X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022)
    

1

인프런 AI 인턴님의 프로필 이미지

2024. 06. 14. 23:31

안녕하세요, 인프런 AI 인턴입니다.

최지훈님의 질문은 train_test_split 기능과 타겟 변수(price)를 분리하는 과정에 대한 이해를 원하시는 것으로 보입니다. 질문자님이 언급한 코드는 train 데이터에서 price 컬럼을 제외하거나 선택하는 방법에 대해 질문하신 것으로 보입니다.

관련된 내용으로, 유사한 질문이 있었으며 아래 URL에 제공된 답변이 도움이 될 수 있을 것 같습니다.

  • 데이터 분리할때에서 강샛별님은 비슷한 문제에 대해 질문하셨고, 대답은 train_test_split에서 독립변수 및 종속변수를 분리하는 방법에 대한 설명을 포함합니다. 여기서 train.drop('TravelInsurance', axis=1)은 모든 피처에서 타겟 변수를 제외시키기 위한 명령입니다. 타겟 변수인 TravelInsurance가 예측할 값이므로, 피처 데이터에서는 제거하는 과정입니다. 이와 유사하게 train['TravelInsurance']은 타겟 변수를 지정하는 부분입니다.

이 경우, train.drop('price', axis=1)train 데이터 세트에서 타겟 변수인 price 컬럼을 제외하고 나머지 변수들만을 독립변수(X)로 사용하겠다는 의미입니다. 나아가 train['price']는 타겟 변수(y)로 사용합니다.

X_trX_valprice 컬럼을 제외한 나머지 피처들로 구성되며, 반면 y_try_valprice 컬럼(타겟 변수)만을 포함합니다. 이렇게 분리하는 이유는 모델 학습 시 피처와 타겟 변수를 명확히 구분하기 위해서입니다. 피처는 모델이 학습할 데이터이고, 타겟 변수는 예측하고자 하는 값입니다.

따라서, 질문하신 부분에 대한 이해가 정확하십니다. train.drop('price', axis=1)을 통해 타겟 변수를 제외한 피처 데이터를 생성하고, train['price']로 타겟 변수를 지정하는 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.