ML Model Sqauence에 대한 이해

안녕하세요 교수님

교수님의 머신러닝 강의가 정말 많은 도움이 되고 있어 감사하고 있습니다.

저는 통계를 우선 공부를 한 후 교수님 강의를 통해 머신러닝을 공부중인 연구개발 직장인입니다.

지도학습, 비지도학습 각각의 모델에 대한 개요와 내용들은 정말 자세하게 설명해주시는 것 같습니다.

다만, 예측 모델을 만든다 라고 했을 때, 저는 다음 과정으로 머신 러닝을 이해했습니다.

틀린 게 있거나, 부족하면 말씀부탁드립니다.

1. Teat data set EDA

2. Data pre-processing

3. Input feature select, extract

4. Model training

5. Model validation

6. new input feature prediction

연속 데이터로 이루어진 실험데이터로 선형 회귀 예측 모델을 구현한다라고 했을 때 하기 내용에 대해 궁금합니다.

step 2. 과정에서 standardization scaling 했을 때 정규성 검증은 필요가 없나요?? (e.g. shaprio-wilks test, 각 feature 별 QQ plot)

step 3. 과정에서 교수님 강의에서는 data scaling 이후 바로 모델 학습/예측/평가를 진행하고, feature 별 회귀 계수를 구하십니다.(경사 하강법)

저는 해당 과정에서 다중 공선성 방지를 위해 PCA, ICA를 통한 features extraction으로 training 으로 진행하는 것으로 이해했는데 해당 방식이 틀린 것인지 여쭙고 싶습니다.

추가로, n개 feature에 대해 몇 개로 차원 축소하는 기준이 있는지 궁금합니다

또, 지도 학습 모델인 선형 회귀 모델을 진행하는데 있어 비지도 학습 기법이 사용이 되는 것이 소개가 안된 것 같은데 이부분에 대해서 어떻게 생각하시는지도 궁금합니다.(정확히는 예측 모델을 구현하는 일련의 과정)

마지막으로 step 5. 과정에서 선형 회귀 모델이 통계적으로 유의한가에 대해 P-value 를 측정하곤 하던데, 이부분에 대해서 간단히 설명해주시면 정말 감사하겠습니다.

상기 질문들을 하는 이유는, 저는 단순히 어떤 연속 데이터 셋에서 ML 모델을 통해 추정하고 싶은데, 여러 분야에서 ML을 사용하다보니 예를 들어 통계 분야 에서는 가설과 함께 설명하고 또 어떤 분야에서는 또 다르게 설명을 하다보니 혼동이 되어서 해당 질문을 드리게 되는 것입니다.

답변 주시면 정말 감사합겠습니다!

안녕하십니까,

도움이 되었다니, 저도 기분이 좋군요.

여러개 질문이 함께 있는데, 제일 중요한 답변 부터 드리는게 좋을 것 같습니다.

Machine learning 이 통계에 기반하고 있지만, ML 모델과 통계 모델의 가장 큰 차이는 ML 기반의 모델에서는 모수집단에 대한 통계적 특성에 대해서 고려하지 않는다는 것입니다. 그래서 confidence interval이나 p value에 대해서는 고민하지 않습니다.

ML 모델은 입력된 학습 데이터 자체에만 기반한 모델입니다. 학습 데이터에 기반하여 모델 예측 성능을 높이는데 그 촛점이 있습니다. 모수 집단이라는 개념 자체가 다릅니다.

질문) step 2. 과정에서 standardization scaling 했을 때 정규성 검증은 필요가 없나요?? (e.g. shaprio-wilks test, 각 feature 별 QQ plot)

=> 하셔도 됩니다만, ML 모델에서는 크게 신경쓰지 않습니다.

질문) step 3. 과정에서 교수님 강의에서는 data scaling 이후 바로 모델 학습/예측/평가를 진행하고, feature 별 회귀 계수를 구하십니다.(경사 하강법)저는 해당 과정에서 다중 공선성 방지를 위해 PCA, ICA를 통한 features extraction으로 training 으로 진행하는 것으로 이해했는데 해당 방식이 틀린 것인지 여쭙고 싶습니다.

=> PCA 적용은 일반적으로 상관 관계가 높은 Feature 들의 갯수가 많을 때 적용하면 좋습니다. 경험적으로는 백개 이상의 Feature들이 있고, 이들 feature들의 상관 관계가 높다고 판단되면, 적용해 볼만 합니다. 그렇지 않고 무작정 PCA를 적용하면 오히려 성능이 더 저하됩니다.

저도 회귀 모델 처음 배울때는 PCA를 적용하면 좋다고 배웠지만, 실제로 적용해 보면 그렇지 않는 경우가 더 많습니다. 또한 요즘 선형 회귀 모델의 성능이 좋아서 PCA를 적용해서 성능이 좋아지는 경우는 극히 제한적입니다. 더욱이 회귀 트리에서는 더더욱 성능이 좋아지는 경우는 드믑니다. 따라서 근래에는 별로 PCA나 기타 차원 축소를 적용하지 않습니다. 오히려 여러가지 Feature Engineering 을 적용합니다(강의에서 설명드립니다)

질문) 또, 지도 학습 모델인 선형 회귀 모델을 진행하는데 있어 비지도 학습 기법이 사용이 되는 것이 소개가 안된 것 같은데 이부분에 대해서 어떻게 생각하시는지도 궁금합니다.(정확히는 예측 모델을 구현하는 일련의 과정)

=> 비지도 학습은 이후 강의에서 설명드립니다. 그리고 현재 ML기반 회귀 모델에서 PCA등의 차원 축소로 인한 성능 개선은 드물기에 회귀에서 설명드리지 않습니다.

감사합니다.

인프런 커뮤니티 질문&답변