해결된 질문
작성
·
114
·
수정됨
0
안녕하세요 선생님
덕분에 머신러닝 너무 재밌게 공부중입니다.
데이터의 분포가 가우시안 분포가 아닐 경우에 minMaxScaler을 적용해 볼 수 있습니다.
라고 나와있는데, 이유가 무엇인지 알 수 있을까요?
제가 생각해본 이유들은 다음과 같습니다.
이미 평균은 0, 표준편차는 1로 정규화되어있어 다시 정규화를 진행할 필요가 없다.
정규분포는 양끝값이 없나..? 그래서 min값과 max값이 너무 멀리 떨어져있나??
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
답변 1
1
안녕하십니까, 잘 듣고 계시다니 저도 기분이 좋습니다.
데이터의 분포가 가우시안 분포가 아닐 경우에 minMaxScaler을 적용해 볼 수 있습니다 라는 얘기는 오해의 소지가 있을 정도로 제가 잘못 기술한 것 같습니다.
정규 분포형태가 아닌 다른 스케일링을 적용해 보는 방법이라고 기술하려는 것을 잘못 기술한 것 같습니다.
과거 제가 머신러닝을 배우는 초창기에는 데이터의 분포도가 정규분포가 제일 바람직하다고 배웠지만, 경험적으로 이는 잘못된 이론 이었습니다. MinMax scaler는 어떠한 데이터 세트에도 적용이 가능하며 굳이 기존 데이터가 정규 분포이냐 아니냐와 상관이 없습니다.
감사합니다.
아하 감사합니다.
혹시 그럼 제가 생각한 scaler 선택방법은
box plot 같은 걸 그려봤을 때, 너무 outlier가 많으면 minMax보다는 정규분포가 적당하다?에 대해서 선생님 의견도 듣고 싶습니다.