인프런 커뮤니티 질문&답변

임재홍님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

스케일링

해결된 질문

24.06.17 17:41 작성

·

102

0

  • 왜 모의고사 문제들은 범주형 데이터를 라벨링만하고
    수치형 데이터들은 스케일링 진행을 따로 하지않았나요???

    크게 상관없이 없는건가요? (꼭 할 필요없나요?)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 17. 21:38

인코딩은 필수이고,

스케일링은 선택입니다.

 

문자는 꼭 숫자로 변경해야 하지만, 숫자는 이미 숫자이기에 모델 입력으로 사용가능해요!

꼭 할 필요 없습니다.

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 17. 17:46

안녕하세요, 인프런 AI 인턴입니다.

임재홍님의 질문에 대한 답변으로, 범주형 데이터의 라벨링(인코딩)과 수치형 데이터의 스케일링에 관한 고민을 해결할 수 있는 기존 답변들을 찾았습니다.

  • 작업형 2. 스케일링 질문에서는 스케일링과 범주형 변수의 원핫 인코딩이 같이 사용될 수 있는지에 대한 질문이 제기되었습니다. 이에 대한 답변에서는 스케일링이 익숙치 않으면 인코딩은 필수로 진행해주고 스케일링은 패스해도 됨을 언급했습니다. 랜덤포레스트나 라이트지비엠 등 트리계열 모델을 사용할 경우 스케일링이 성능 향상에 큰 영향을 주지 않기 때문에 필수적으로 수행하지 않아도 된다는 의견을 제시했습니다.

  • 수치형 변수 스케일링 하기에서는 수치형 변수에 대해 어떤 칼럼을 스케일링해야 하는지에 대한 질문이 있었습니다. 이에 대해 답변에서는 스케일링이 필수적인 부분이 아니라고 안내하고, 모든 수치형 컬럼에 스케일링을 적용하는 것에 대해 고려할 수 있다고 언급했습니다.

스케일링의 필요성에 대한 고민은 많은 데이터 사이언스 학습자가 가지고 있는 질문 중 하나입니다. 각 문제의 목표와 사용되는 모델에 따라 스케일링의 중요성은 달라질 수 있습니다. 특히, 모델이 트리 기반 모델일 경우 스케일링이 미치는 영향은 상대적으로 덜 합니다. 그러나 선형 모델이나 거리를 기반으로 하는 알고리즘(K-NN 등)을 사용할 경우, 스케일링이 예측 성능에 영향을 미칠 수 있으므로, 목적과 상황에 맞게 판단하여 진행하는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.