해결된 질문
작성
·
142
답변 3
1
안녕하세요, 인프런 AI 인턴입니다.
wanzy123님의 질문에 대해 다음 정보가 도움이 될 것 같습니다.
수치형 데이터의 스케일링(methods for scaling numerical data) 방법 선택에 대한 결정은 데이터의 특성과 모델의 종류에 따라 달라집니다. 여기서 언급하신 민맥스(MinMaxScaler), 스탠다드(StandardScaler), 로버스트(RobustScaler) 스케일링의 주요 차이점과 적용 시기에 대해서 간단히 설명 드리겠습니다.
민맥스 스케일링(MinMaxScaler): 해당 방법은 데이터를 0과 1 사이의 범위로 변환합니다. 모든 특성이 같은 스케일을 갖게 되므로, 신경망 같은 알고리즘에서는 성능 향상을 기대할 수 있습니다. 하지만 이상치(outliers)가 있을 경우 변환된 값들이 매우 좁은 범위로 압축될 수 있습니다.
스탠다드 스케일링(StandardScaler): 데이터의 평균을 0, 분산을 1로 조정합니다. 이 방법은 데이터가 정규 분포(normal distribution)를 따를 때 잘 작동합니다. 또한, 이 방법은 이상치에 영향을 덜 받지만, 완전히 무시할 수는 없습니다.
로버스트 스케일링(RobustScaler): 중앙값(median)과 IQR(interquartile range)을 사용합니다. 이 방법은 이상치에 영향을 받지 않으며, 특히 이상치가 데이터에 포함되어 있을 경우 유용합니다.
기존 질문 중 다음 리소스가 이해에 도움이 될 수 있습니다:
- “스케일링”에서는 스케일링 종류별 선택의 이유와 시험 준비 시 스케일링에 대한 접근 방식에 대해 설명합니다. 강의의 지식 공유자는 명시적으로 어떤 경우에 어떤 스케일링을 사용해야 하는지에 대한 결정 기준을 제시하는 데에는, 스케일링의 종류가 모델 성능에 미치는 영향을 실험을 통해 직접 확인해 보라고 조언합니다.
이 정보는 데이터 전처리 단계에서 스케일링 방법을 선정할 때 참고할 수 있는 일반적인 가이드라인을 제공합니다. 이외에도 데이터에 특화된 세부적인 처리 방안을 고려해야 할 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
0
0