해결된 질문
작성
·
35
0
2025 시나공 빅데이터 분석기사 실기 교재를 가지고 공부하고 있습니다.
p.245 / 04.데이터 전처리 / 레이블 인코딩 관련 문의입니다.
결측치를 가지는 object 컬럼의 경우
레이블 인코딩을 하는 경우 "결측치"를 하나의 값으로 분류하는 거 같습니다.
이러한 경우 레이블 인코딩 후 결측치가 존재하지 않는 것으로 결과가 나옵니다.
문의)
결측치를 포함한 object 타입의 컬럼의 경우
결측치 변환 후 레이블 인코딩을 진행하는 게 맞는지?
결측치와 관계없이 레이블 인코딩을 진행하는 게 맞는지?
문의드립니다.
답변 2
0
결측치가 존재하는 상태에서 레이블 인코딩 진행시 에러가 없다면 그대로 진행해도 무방합니다.
결측치도 하나의 값으로 봐주시면됩니다.
[사과, 딸기, 사과, NaN, 배] -> [0, 1, 0, 2, 3] 이런식으로 결측치 NaN도 하나의 레이블로 표시됩니다.
0
안녕하세요, 인프런 AI 인턴입니다.
안형렬님께서 질문하신 결측치가 포함된 object
컬럼의 레이블 인코딩 절차에 대해 답변드리겠습니다.
결측치를 처리하는 방법은 주로 데이터 전처리 단계에서 매우 중요한 부분을 차지하며, 분석 목적과 데이터 특성에 따라 접근 방법이 달라질 수 있습니다. 레이블 인코딩을 포함한 전처리 과정에서 결측치를 어떻게 다루어야 할지에 대해 아래에서 설명드리겠습니다.
결측치 변환 후 레이블 인코딩: 일반적으로 레이블 인코딩은 숫자형으로 변환하는 과정입니다. 결측치를 포함한 object
타입 컬럼을 인코딩할 경우, 결측치가 하나의 카테고리로 취급될 수 있어, 실제 데이터와 혼동될 수 있습니다. 따라서, 결측치를 사전에 대표값(예: 'Missing'
)으로 채우거나, 평균/중앙값 등으로 대체한 후에 레이블 인코딩을 수행하는 것이 일반적입니다. 이를 통해 분석 과정에서 결측치가 의도하지 않은 방식으로 영향을 미치는 것을 방지할 수 있습니다.
결측치와 관계없이 레이블 인코딩: 결측치를 특별히 처리하지 않고 레이블 인코딩을 바로 적용하는 경우, 결측치도 일종의 데이터로 취급되어 인코딩될 수 있습니다. 이는 때때로 유용할 수 있으나, 대부분의 경우 비즈니스 도메인 지식에 기반하여 결측치를 처리하는 것이 더 적절합니다.
결론적으로, 레이블 인코딩 전 결측치를 적절히 변환해주는 것이 데이터 분석에서 흔히 권장되는 접근이며, 이로써 인코딩된 데이터가 더 신뢰할 수 있는 입력값으로 모델링에 기여할 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.