인프런 커뮤니티 질문&답변

dominicus님의 프로필 이미지

작성한 질문수

15일간의 빅데이터 파일럿 프로젝트

2.R을 이용한 회귀분석 - 운전자 연소득 예측 3

회귀분석 관련 질문 드립니다.

작성

·

95

0

R을 이용한 회귀분석 강의에서 smartcarMaster2Income에 있는 capacity를 feature로 income이라는 lable을 예측하는 것으로 이해했는데 분석에 사용된 데이터를 통해 얻은 모델을 검증하는 과정에서 Test파일을 가지고 predict를 하고나서 동일한 파일과 비교를 하는게 잘 이해가 되지 않아서 질문 드립니다.

모델을 검증?추론?할때는 lable값이 없는 데이터를 넣고 그 결과가 실제데이터(test파일)과 얼마나 가까운지를 확인하는 것이 아닌가요?

답변 1

0

Big.D님의 프로필 이미지
Big.D
지식공유자

안녕하세요! "dominicus"님!

본인의 설명이 다소 부족한 부분이었는데...좋은 질문 감사합니다~

 

말씀하신데로 test_data 셋을 아래처럼 독립변수 데이터셋과 타겟변수(label) 데이터셋으로 분리해 놓고

Predict을 해야 하는데요...제가 많이 귀찮았나 봅니다. ^^;;

test_data_x -> 독립변수

test_data_y -> 타겟변수

 

부연 설명을 좀더 드리자면...

해당 R코드에선 이미 학습된 회귀 모델을 이용한 predict에 타겟변수가 포함된 데이터프레임을 이용해도,

모델은 test_data의 독립변수만 참조해 predict을 하게 되므로 결국 아래 두코드의 결과는 과정에 차이가 있을뿐 같습니다. (단, test 데이터프레임의 변수명과 train 데이터프레임의 변수명이 같은 경우만 가능 합니다.)

 

<방법1> #기존방식

predict_y <- predict(model, test_data, interval = "prediction")

RMSE(predict_y, test_data$smartcar_master2income.income)

 

<방법2>

test_data_x # 독립변수

test_data_y # 타겟변수

predict_y <- predict(model, test_data_x, interval = "prediction")

RMSE(predict_y , test_data_y)

 

파일럿 프로젝트 거의 마지막 단계까지 오셨네요!!!

끝까지 화이팅 입니다. -빅디 드림