작성
·
95
0
R을 이용한 회귀분석 강의에서 smartcarMaster2Income에 있는 capacity를 feature로 income이라는 lable을 예측하는 것으로 이해했는데 분석에 사용된 데이터를 통해 얻은 모델을 검증하는 과정에서 Test파일을 가지고 predict를 하고나서 동일한 파일과 비교를 하는게 잘 이해가 되지 않아서 질문 드립니다.
모델을 검증?추론?할때는 lable값이 없는 데이터를 넣고 그 결과가 실제데이터(test파일)과 얼마나 가까운지를 확인하는 것이 아닌가요?
답변 1
0
안녕하세요! "dominicus"님!
본인의 설명이 다소 부족한 부분이었는데...좋은 질문 감사합니다~
말씀하신데로 test_data 셋을 아래처럼 독립변수 데이터셋과 타겟변수(label) 데이터셋으로 분리해 놓고
Predict을 해야 하는데요...제가 많이 귀찮았나 봅니다. ^^;;
test_data_x -> 독립변수
test_data_y -> 타겟변수
부연 설명을 좀더 드리자면...
해당 R코드에선 이미 학습된 회귀 모델을 이용한 predict에 타겟변수가 포함된 데이터프레임을 이용해도,
모델은 test_data의 독립변수만 참조해 predict을 하게 되므로 결국 아래 두코드의 결과는 과정에 차이가 있을뿐 같습니다. (단, test 데이터프레임의 변수명과 train 데이터프레임의 변수명이 같은 경우만 가능 합니다.)
<방법1> #기존방식
predict_y <- predict(model, test_data, interval = "prediction")
RMSE(predict_y, test_data$smartcar_master2income.income)
<방법2>
test_data_x # 독립변수
test_data_y # 타겟변수
predict_y <- predict(model, test_data_x, interval = "prediction")
RMSE(predict_y , test_data_y)
파일럿 프로젝트 거의 마지막 단계까지 오셨네요!!!
끝까지 화이팅 입니다. -빅디 드림