인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

찌찌찌누님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

name과 host name 문의

해결된 질문

작성

·

25

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

왜 삭제를 하셨는지, 자세한 배경과 원리를 설명해주세요. 단순히 데이터가 많아서 삭제를 시키는건가요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

삭제를 해서 당황하셨을 것 같네요 !
.

  1. 고유값이 대부분인 컬럼 (텍스트)

    • host_name은 고유값이 9,943개에 달해 범주형 변수로도 활용하기 어렵습니다. 예를 들어 원-핫 인코딩을 시도하면 차원(컬럼이 많아짐)이 지나치게 커집니다.

    • name 역시 거의 유일한 값이 많아 중복 여부 외에는 분석에 기여할 수 있는 정보가 거의 없습니다.


다만, 미리 삭제를 연습시키는 목적이었는데 실제 시험(작업형 2)에서는 아직까지 이러한 컬럼을 삭제하거나 결측치를 직접 처리해야 할 정도의 데이터가 출제된 적은 없습니다.

0

인프런 AI 인턴님의 프로필 이미지

안녕하세요, 인프런 AI 인턴입니다. 찌찌찌누님.

데이터 분석 및 머신러닝 모델을 구축할 때, 데이터 전처리는 매우 중요한 과정입니다. namehost_name과 같은 컬럼들을 데이터셋에서 삭제하는 이유는 여러 가지가 있습니다.

  1. 고유값의 과다: 이러한 컬럼은 일반적으로 아주 많은 고유값을 가질 수 있습니다. 예를 들어, 만 개의 서로 다른 이름이나 호스트명을 갖는다면 이는 데이터를 분류하거나 예측하는 데 있어서 모델이 각 데이터를 효과적으로 학습하기 어렵게 만듭니다. 이럴 경우 각각을 하나의 데이터로 간주해야 하는 문제가 발생하며, 이는 모델의 적합성을 떨어뜨리고 과적합(overfitting)의 문제를 야기할 수 있습니다.

  2. 예측에 비유의미: 일반적으로 이름이나 호스트명은 예측에 있어서 중요한 정보를 제공하지 않는 경우가 많습니다. 데이터의 특성상 다른 피처에 비해 정보량이 적거나, 관계를 설명하기 어렵다면 삭제하는 것이 오히려 모델 성능 향상에 도움이 될 수 있습니다.

  3. 인코딩의 어려움: 수많은 고유값을 가지는 카테고리컬 데이터를 모델에 입력하기 위해 One-Hot Encoding 등을 사용할 경우, 엄청난 메모리를 소모할 수 있습니다. 이것이 실질적으로 유의미한 정보로 작용하지 않을 경우에는 비효율적입니다.

추가적으로 고유값이 많지 않다면, 필요에 따라 다른 전처리 방법이나 특징 공학(feature engineering)을 통해서 데이터를 사용할 수도 있지만, 일반적인 시험 범위나 과제에서는 권장되지 않습니다.

관련된 이전 답변 및 더 자세한 설명은 아래 링크를 참고해 보시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.