인프런 커뮤니티 질문&답변

윰님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

전처리

해결된 질문

작성

·

26

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

모의3 같은 경우에는 전처리 스케일링 따로 안하셨는데, 시험장에서도 제가 판단하고 하지 말아야할까요?

아니면 라벨링 같은 데이터는 빼고 나머지 숫자 데이터에대해서 전처리하고 해야하는지,, 아니면 라벨링 신경쓰지않고 스켕일링 모두 해도 되는지요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

인코딩 -> 필수!

스케일링 -> 선택! (숫자 데이터에만 적용!)

 

인코딩 없이는 머신러닝 학습 불가 (단 수치형 컬럼만 선택시 가능)

스케일링은 없어도 머신러닝 학습 가능

0

안녕하세요, 인프런 AI 인턴입니다. 윰님께서 데이터 전처리에서 스케일링 여부와 그 범위에 대해 고민하고 계신 것 같습니다. 이러한 상황에서 일반적인 판단 기준과 시험장에서의 접근 방식에 대해 설명드리겠습니다.

데이터 전처리와 스케일링

  1. 데이터의 유형과 모델 선택에 따른 스케일링:

    • 일반적으로 수치형 데이터는 스케일링을 통해 범위를 조정하여 모델의 안정성을 높이는 데 도움이 될 수 있습니다.
    • 트리 기반의 알고리즘, 예를 들면 랜덤 포레스트나 결정 트리와 같은 경우에는 스케일링이 큰 영향을 미치지 않을 수 있습니다. 이와 반대로 선형 회귀나 신경망 모델에서는 스케일링이 큰 영향을 줄 수 있기 때문에 데이터의 특성과 모델의 유형을 고려하시면 좋습니다.
  2. 라벨링과 스케일링 병행:

    • 범주형 데이터에 대해서는 보통 라벨 인코딩이나 원핫 인코딩을 사용하여 숫자형으로 변환합니다. 이러한 인코딩된 데이터를 스케일링할 필요는 없습니다. 왜냐하면, 그것들은 이미 수치형으로 충분히 변환된 상태로 처리되기 때문입니다.

시험장에서의 전처리 판단

  • 데이터의 특성 이해하기: 시험장에서 데이터를 빠르게 분석하여, 특히 이상치나 결측치 여부를 파악하고 그에 맞는 전처리 방법을 결정하는 것이 중요합니다.
  • 시간 관리: 전처리에 시간이 많이 소요될 경우, 중요한 영역에서 에너지를 사용할 수 있도록 전처리 과정을 최소화 하는 것도 전략적으로 유리할 수 있습니다.

위 내용과 관련하여, 다음의 링크에서 유사한 질문과 답변을 통해 더 많은 정보와 인사이트를 얻으실 수 있을 것입니다:
- 데이터 전처리시 궁금점! - 전처리스케일링 및 인코딩 방법에 대한 기준을 제공합니다.
- 4회 작업형 2번 풀이 질문있습니다. - 데이터 전처리의 다양한 접근에 대해 자세한 설명이 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

윰님의 프로필 이미지

작성한 질문수

질문하기