작성자 없음
작성자 정보가 삭제된 글입니다.
작성
·
364
0
답변 2
1
안녕하십니까,
답변이 늦어서 죄송합니다.
지나친게 아니고, 질문하신 원-핫 인코딩에 대해서 저도 생각할 시간이 필요해서 답변이 늦었습니다. (이제 나이가 있으니 장시간 운전하면 체력이 회복이 안되서 그런 부분도 있습니다 ^^;;)
1. 먼저 원-핫 인코딩이 아닌 일반 코드값의 회귀 계수는 잘 아시다시피 그런 식으로 이해 될 수가 없습니다.
연속형 값에 대해서는 그렇게 이해할 수 있습니다. 하지만 코드값, 가령 (19, 20, 21, 22, 23, 00)를 그렇게 대응 시킬 수는 없습니다. 코드값의 경우는 '전체 회귀식에서 해당 회귀 계수의 영향도가 이정도 이다'라는 정도로 이해가 되면 될 것 같습니다.
그럼 일반 코드값을 원-핫 인코딩한 회귀 계수는 연속형 값과 같은 해석이 가능한가 인데, 이 역시 그정도 수준까지 확장 해석하기에는 무리가 있습니다. 물론 회귀 계수값이 - 냐, + 냐에 따라서 당연히 타겟값에 영향을 미치겠지만, 그것보다는 원핫 인코딩 원본 컬럼을 기준으로 어느정도의 영향을 가지고 있느냐 정도로 해석되는게 더 맞다고 생각됩니다. 즉 hour_20의 회귀계수가 -0.3 일때 20시의 자전거 대여수가 늘어나고 hour_9일때 회귀 계수가 0.5라면 9시에 대여수가 늘어난다기 보다는 hour라는 피처를 원핫 인코딩 될 때 개별 피처들의 영향도가 이정도 이다 라는 정도로 이해가 되면 될 것 같습니다.
2. 통계학 기반의 회귀와 머신러닝 기반의 회귀의 가장 큰 차이는 가정 검증을 하느냐 그렇지 않느냐 입니다.
머신러닝 기반의 회귀는 일반적으로 통계학 기반의 회귀에서 수행하는 가정 검증을 별도로 하지 않습니다. 방정식 형태로 변수간의 관계를 공식화하는 통계학 기반의 회귀에는 다르게 머신러닝 기반의 회귀는 학습 데이터를 기반으로 모델 알고리즘을 학습 시키는 방식의 차이가 있기 때문입니다.
예를 들어 통계학 기반의 회귀에서는 R2 Score, p밸류 유의성 검증등이 중시되지만, 머신러닝에서는 RMSE와 같이 예측과 실제값 차이가 더 중시됩니다. 머신러닝이 좀 더 결과 우선주의이긴 합니다.
그래서 제 강의를 포함한 어떤 머신러닝 강의에서도 아마 p 밸류 검증값은 단어는 나오지 않을 것입니다.
그런데 이를 수행해야 하느냐, 수행하지 않아야 하느냐는 머신러닝 초창기에는 여러 이견이 있습니만, 지금은 각자의 의견의 존중하는 걸로 정착이 되었습니다
0