작업형2 - 스케일링 - 인프런 | 커뮤니티 질문&답변

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

시험응시전략

작업형2 - 스케일링

해결된 질문

작성

133

수정됨

안녕하세요!

작업형2의 데이터 전처리 스케일링 관련하여 문의사항이 있어 질문 남깁니다.

카테고리형 데이터의 경우, 라벨 인코딩, 원-핫 인코딩을 사용하고,

숫자형인 경우, 표준화, 정규화를 사용하는 것 같은데,

각각의 기법을 언제 사용하는지 궁금합니다!

데이터 타입별 기법들의 차이는 이해했는데, 어떤 경우에 어떤 기법을 선택해서 사용해야 하는지 문의드립니다. 감사합니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

모든 것은 검증데이터로 평가했을 때 성능을 기준으로 합니다.

다만 팁을 조금 드리면

카테고리 -> 인코딩은 필수이고,

숫자형 -> 스케일링은 선택입니다.

아래 내용은 정답은 아니고. 의견입니다.

카테고리

카테고리가 10개 이상이다. -> 라벨인코딩 추천
카테고리가 10개 미만이다. -> 원핫, 라벨 추천

스케일링

3개 중 아무거나 하나 연습해서 적용.
단 스케일링이 작업형1에서 나올 수 있으므로 대표적인 스탠다드, 민맥스 스케일링은 할 수 있는 것이 좋습니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 염민서님의 궁금증을 해결하기 위해 관련된 내용을 살펴보았습니다.

작업형2에서 데이터 전처리 및 스케일링 관련해서는 데이터의 유형(카테고리형 vs 숫자형)에 따라 다르게 접근하는 것이 일반적입니다. 카테고리형 데이터의 경우, 모델이 이해할 수 있도록 숫자형으로 변환하는 과정이 필요한데, 이때 라벨 인코딩과 원-핫 인코딩이 사용됩니다. 반면, 숫자형 데이터의 경우, 값의 범위나 분포를 조정하기 위해 표준화(Standardization)나 정규화(Normalization)를 사용합니다.

염민서님의 질문에 직접적인 답변을 제공할 수 있는 관련 답변은 다음 링크에 있습니다:
- 데이터 전처리시 궁금점에 대한 답변에서는 범주형과 수치형 데이터의 전처리 방법에 대한 구체적인 설명과 함께, 어떤 상황에서 특정 전처리 방법을 선택해야 하는지에 대한 조언이 담겨 있습니다. 해당 답변은 데이터 전처리시 궁금점! 에서 확인하실 수 있습니다.

본 답변에서 범주형 데이터는 주로 라벨 인코딩이나 원핫 인코딩을 통해 숫자로 변환하는 것이 필수인 점을, 수치형 데이터에 대해서는 값의 범위나 분포 조정을 위해 스케일링이 필요하다는 점을 강조하고 있습니다. 조건에 따라 이러한 처리를 하지 않아도 되는 경우도 있음을 명시하고 있어, 구체적인 사용 사례와 상황에 따른 선택 기준을 제시해주고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

작업형2 - 스케일링