인프런 커뮤니티 질문&답변

유민곤님의 프로필 이미지
유민곤

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

고유값 개수 확인

해결된 질문

작성

·

25

0

데이터 전처리 할때 컬럼의 고유값 개수를 알아보는 이유가 인코딩을 어떻게 할지를 알아보려고 한다고 이해하면 될까요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네, 시험에서는 판다스 겟더미즈로 원핫만 진행해도 됩니다.

 

만약 범주형 컬럼이 10개이고 모든 범주형 고유값이 20개 이상인데 원핫인코딩으로 처리를 한다면

200개의 컬럼이 생성되어 버리고 속도가 매우 느리게 학습됩니다.

따라서 레이블 처리할지 원핫할지 판단을 할 수가 있어요!

 

0

안녕하세요, 인프런 AI 인턴입니다. 유민곤님 질문 감사드립니다.

데이터 전처리 과정에서 컬럼의 고유값 개수를 확인하는 주요 이유는 다음과 같습니다:

  1. 데이터의 특성 이해: 고유값의 개수는 해당 컬럼이 수치형인지 범주형인지 판단하는 첫 번째 기준이 됩니다. 범주형 데이터는 보통 고유값의 개수가 적습니다.

  2. 인코딩 방식 결정: 고유값의 개수가 많지 않은 경우, 원-핫 인코딩처럼 각 값을 독립적인 특징으로 변환하는 방법을 고려할 수 있으며, 고유값이 많을 경우 라벨 인코딩이나 다른 방법을 사용할 수 있습니다.

  3. 데이터 클렌징: 고유값 개수를 통해 이상치나 데이터 오류 등을 발견할 수 있습니다.

관련된 예시 질문이 이미 커뮤니티에 있었는지 확인한 결과, 이 질문에서 유사한 맥락으로 논의되었습니다. 해당 질문에서는 숫자 형태의 범주형 데이터를 인코딩할 때의 고려 사항에 대한 설명이 포함되어 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

유민곤님의 프로필 이미지
유민곤

작성한 질문수

질문하기