인프런 커뮤니티 질문&답변

허쿡님의 프로필 이미지
허쿡

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

데이터 전처리 - 스케일링 - 01

스케일링 1 강의 질문

작성

·

204

0

데이터 전처리 - 스케일링 - 01 강의 1분47초에서

표준화로 데이터의 피처 각각이 평균이 0 이고 분산이 1인 가우시안 정규분포로 바꿔준다고 했는데요.

 

원래 데이터가 정규분포를 가졌다면 xi_new (표준화 식)식 으로 평균이 0 이고 분산이 1인 정규분포를 도출할 수 있지만 애초에 정규분포를 이루지 않는 데이터의 경우는 해당 식을 적용한다고 해서 정규분포가 되지 않을 텐데 이런 경우는 어떻게 해서 정규분포로 만든다는 것일까요?

 

답변 부탁드립니다. 감사합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

좋은 질문 이군요.

Standard Scaler(z score 변환)은 정규 분포 형태의 데이터들을 표준 정규 분포 형태로 만들어 줍니다. 이때 Standard Scaler는 기존 데이터 분포를 유지하면서 평균이 -1 ~ 1 사이에 대부분의 값이 들어올 수 있도록 변환을 해줍니다.

말씀하신대로 기존 데이터가 정규 분포 형태가 아닌 경우 Standard Scaler가 이를 정규 분포형태로 바꿔주지는 않습니다. 다만 정규 분포가 아니더라도 Standard Scaler는 기존의 데이터 분포를 어느정도 유지하면서도 평균이 0에 가깝게 유지할 수 있도록 데이터 변환이 됩니다.

Standard Scaler로 변환할 때 정규 분포이냐, 아니냐 관점보다는 서로 다른 데이터 세트들을 동일한 잣대로 변경할 수 있는 규칙을 Z-score 변환으로 정했다는 점에 더 촛점을 맞추셨으면 합니다.

감사합니다.

허쿡님의 프로필 이미지
허쿡
질문자

자세한 설명 감사합니다 :)

허쿡님의 프로필 이미지
허쿡

작성한 질문수

질문하기