작성
·
230
답변 1
0
안녕하세요.
데이터를 표준 스케일링하더라도 원래 데이터의 확률분포함수 (pdf)는 모양이 그대로 유지됩니다.
예를 들어, 원래 데이터가 uniform 분포이면 스케일링을 하더라도 uniform 모양을 그대로 유지합니다.
즉, pdf 모양이 정규분포처럼 바뀌는 것이 아니라, 원래 데이터 값들을 이동시켜 평균이 0, 표준편차가 1이 되도록 위치만 바꾸는 것입니다. 일부 서적에서 표준 스케일링을 하면 정규분로 변경되는 것처럼 쓰고 있으나, 이는 틀린 말입니다.
표준 스케일링과 정규분포와는 아무 상관이 없는 것입니다. 데이터의 확률 분포(모양)는 그대로 유지하면서 평균이 0, 표준편차가 1이 되도록 위치 이동만 하는 것입니다. 스케일링을 사용하는 이유는 여러 컬럼의 값들이 너무 크거나 작은 값들을 동시에 사용하면 분석(머신러닝 모델)이 잘 되지 않기 때문입니다. (모든 성적을 100점 만점으로 통일시키는 것과 같은 효과입니다).
궁금한 사항 있으면 질문해주세요~