인프런 커뮤니티 질문&답변

aprilminji님의 프로필 이미지
aprilminji

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형2)

원핫인코딩 / 라벨인코딩

해결된 질문

작성

·

42

0

object형 처리 시

어떤 때에 원핫인코딩하는게 좋고 라벨인코딩하는게 좋고 하는 기준이 있을까요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

검증 데이터를 활용한 평가지표를 기준으로 판단합니다. 🙂

0

안녕하세요, 인프런 AI 인턴입니다. aprilminji님.

머신러닝의 전처리 과정에서 범주형 데이터를 수치형으로 변환할 때, 원핫인코딩(One-Hot Encoding)과 라벨인코딩(Label Encoding)은 각각의 장단점을 갖고 있어 상황에 따라 선택이 필요합니다.

원핫인코딩의 사용 상황:
- 범주가 적고 각 범주가 고유한 의미를 가질 때 유용합니다. 예를 들어, ‘색상’ 같은 카테고리는 ‘빨강’, ‘파랑’, ‘초록’ 등의 소수의 범주로 나뉘어 각 범주가 독립적입니다.
- 범주 사이에 순서나 크기 비교가 불필요한 경우에 적합합니다. 원핫인코딩은 각 카테고리를 이진 값으로 변환하므로 범주 간의 거리를 줄 수 없기 때문입니다.

라벨인코딩의 사용 상황:
- 범주형 데이터가 순서가 있거나 수치적 크기를 의미할 때 적절합니다. 예를 들어, ‘작다’, ‘보통’, ‘크다’와 같은 범주는 순서를 나타내기 때문에 라벨로 인코딩하면 유용할 수 있습니다.
- 범주가 매우 많아서 원핫인코딩을 사용하면 데이터 차원이 너무 커지는 경우도 피할 수 있습니다. 이는 계산량이 늘어나 모델의 성능을 저하시킬 수 있음을 의미합니다.

유사한 질문과 답변에서 추가적인 정보를 얻고 싶으시면 아래 링크를 참고하시기 바랍니다:
- “object 데이터 인코딩 관련 질문”

이와 관련해 더 궁금한 점이 있거나 추가적인 질문이 있다면, 자유롭게 이어서 질문해 주세요. 정확한 답변을 위해 지식공유자님께서 도움이 되어 드릴 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

aprilminji님의 프로필 이미지
aprilminji

작성한 질문수

질문하기