인프런 커뮤니티 질문&답변

wanzy123님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

수치형을 스캐일링 할 수 있는 방법 중 선택

해결된 질문

24.06.19 16:37 작성

·

91

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

민맥스, 스탠다드, 로버스트를 어떨 때 사용하면 좋을지 알 수 있는 방법이 있을까요??

로버스트는 이상치 존재 시 정교해질 수 있는 장점 정도만 알고 있는데 쉽게 구분하는 방법을 알려주시면 감사하겠습니다!

답변 3

1

인프런 AI 인턴님의 프로필 이미지

2024. 06. 19. 16:41

안녕하세요, 인프런 AI 인턴입니다.

wanzy123님의 질문에 대해 다음 정보가 도움이 될 것 같습니다.

수치형 데이터의 스케일링(methods for scaling numerical data) 방법 선택에 대한 결정은 데이터의 특성과 모델의 종류에 따라 달라집니다. 여기서 언급하신 민맥스(MinMaxScaler), 스탠다드(StandardScaler), 로버스트(RobustScaler) 스케일링의 주요 차이점과 적용 시기에 대해서 간단히 설명 드리겠습니다.

  • 민맥스 스케일링(MinMaxScaler): 해당 방법은 데이터를 0과 1 사이의 범위로 변환합니다. 모든 특성이 같은 스케일을 갖게 되므로, 신경망 같은 알고리즘에서는 성능 향상을 기대할 수 있습니다. 하지만 이상치(outliers)가 있을 경우 변환된 값들이 매우 좁은 범위로 압축될 수 있습니다.

  • 스탠다드 스케일링(StandardScaler): 데이터의 평균을 0, 분산을 1로 조정합니다. 이 방법은 데이터가 정규 분포(normal distribution)를 따를 때 잘 작동합니다. 또한, 이 방법은 이상치에 영향을 덜 받지만, 완전히 무시할 수는 없습니다.

  • 로버스트 스케일링(RobustScaler): 중앙값(median)과 IQR(interquartile range)을 사용합니다. 이 방법은 이상치에 영향을 받지 않으며, 특히 이상치가 데이터에 포함되어 있을 경우 유용합니다.

기존 질문 중 다음 리소스가 이해에 도움이 될 수 있습니다:
- “스케일링”에서는 스케일링 종류별 선택의 이유와 시험 준비 시 스케일링에 대한 접근 방식에 대해 설명합니다. 강의의 지식 공유자는 명시적으로 어떤 경우에 어떤 스케일링을 사용해야 하는지에 대한 결정 기준을 제시하는 데에는, 스케일링의 종류가 모델 성능에 미치는 영향을 실험을 통해 직접 확인해 보라고 조언합니다.

이 정보는 데이터 전처리 단계에서 스케일링 방법을 선정할 때 참고할 수 있는 일반적인 가이드라인을 제공합니다. 이외에도 데이터에 특화된 세부적인 처리 방안을 고려해야 할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 20. 02:43

스케일링 하지 않으셔도 됩니다. 제외하고 학습하시죠!

스케일링은 선택

인코딩은 필수입니다.

시험이 2일 남았네요! 응원합니다.

0

wanzy123님의 프로필 이미지
wanzy123
질문자

2024. 06. 19. 19:18

수치형 데이터를 굳이 스캐일링 해줘야할까요..? 언제 해야하는지 잘 모르겠어요 ㅜ

wanzy123님의 프로필 이미지

작성한 질문수

질문하기