기출 8회 작업형 2번 질문입니다.

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

해결된 질문

작성

제가 작업형2를 학습중인데 모르는 부분이 생겨서 질문드립니다.

작업형2에서 EDA를 진행할 때 기초통계값에서는 어떠한 부분을 확인하나요?
RobustScaler나 MinMaxScaler같은 전처리 함수는 수치형데이터를 전처리할 때 사용하는 함수인가요?
그렇다면 기출8회 작업형2에서는 왜 LabelEncoder만 진행을하고 수치형데이터에는 따로 전처리를 진행하지 않은건가요?
기출8회 작업형2에서 customerID를 제거하던데 왜 ID값들은 제거해야하나요?

질문 답변해주시면 감사하겠습니다!!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

정해진 것은 없습니다만, 최소 최대값은 확인하고 있어요
네 맞아요 수치형 데이처 처리할 때 스케일링을 사용해요
반드시 해야 하는 것은 아닙니다.
1. 모든 전처리의 여부는 검증데이터를 사용해 모델 성능이 향상되는지를 기준으로 합니다
2. 스케일링이 어렵다면 생략해도 좋습니다
모든 값이 다른 id라서 삭제 했어요.
1. 반드시 삭제해야 하는 것은 아니에요~ 그냥 두셔도 모델에서 중요도록 낮게 판단합니다. (한번 비교해 보시죠!)
2. 다만 숫자일 때만 그냥 둬도 되고, 문자면 인코딩 또는 삭제가 필요합니다. (문자 그대로 모델 입력데이터로 넣을 수 없음)
3. 또한 id가 상품 id처럼 반복되는 id면 중요한 컬럼입니다. (삭제 금지)

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 최승우님께서 문의하신 작업형2에 대한 질문들에 대해 답변드리겠습니다.

기초통계값에서 확인할 부분: EDA(탐색적 데이터 분석)를 진행할 때 기초통계값에서 확인해야 할 부분은 데이터의 분포, 평균, 중앙값, 최댓값, 최솟값, 표준편차 등을 포함합니다. 이러한 값을 통해 데이터의 전반적인 특징을 파악하고 이상치나 불균형을 감지할 수 있습니다.
RobustScaler와 MinMaxScaler: 이러한 전처리 함수들은 수치형 데이터를 스케일링할 때 주로 사용됩니다. MinMaxScaler는 데이터를 0과 1 사이의 값으로 변환하고, RobustScaler는 중앙값과 IQR(interquartile range)을 사용하여 이상치에 민감하지 않은 스케일링을 수행합니다. 전처리 방법을 선택할 때는 데이터의 특성에 맞춰 사용하는 것이 중요합니다.
기출8회 작업형2에서 전처리: 특정 작업형에서는 수치형 데이터에 별도의 전처리가 필요하지 않을 수 있습니다. 이는 모델의 종류나 데이터의 특성 등 여러 요인에 의해 결정됩니다. 일정한 패턴이 없거나 데이터 자체가 모델에 그대로 투입되었을 때 성능이 괜찮다고 판단되면 수치형 변환을 생략할 수 있습니다.
ID값 제거 이유: ID값은 모델 학습에 있어 예측에 영향을 주지 않는 단순 식별자 역할을 하는 경우가 많습니다. 따라서, 모델 성능에 영향을 미치지 않기 위해 제거합니다. 이는 ID가 특정 패턴을 나타내지 않고 예측의 대상이 되지 않는 경우에 특히 해당됩니다.

비슷한 질문들을 찾기 위해 아래 링크를 참고하세요. 원활한 학습이 되셨으면 합니다.

3회 빅데이터 분석기사 실기(작업형2) 질문에서 수치형 변수 스케일링과 관련된 정보
4회 작업형 2번 풀이 질문있습니다.에서 피쳐 스케일링과 ID 처리 관련 설명

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

기출 8회 작업형 2번 질문입니다.