인프런 커뮤니티 질문&답변

슬화님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2번 풀이과정 질문입니다.

해결된 질문

24.06.17 23:45 작성

·

85

0

  • 전처리, 피처엔지니어링 할 때, 언제 무엇을 해야할지 헷갈립니다.


    가령 데이터가 어떨 때, 어떤 것을 스케일링 해야하는지 헷갈립니다. 기출문제 풀이에서 스케일링을 한 경우도 있고, 안 한 경우도 있다보니 정리가 잘 안되는 느낌입니다.
    get_nc_data로 n과 c를 나눴다가 다시 concat으로 합친 경우가 있는가 하면, 어떤 회차에서는 그냥 스케일링도 없이 원핫인코딩만 해버리는 경우도 있어서, 언제 어떤 방식으로 전처리를 해야할지 감이 잘 안옵니다. 저런 기준을 잘 모르겠습니다.

  • 또, target열을 value_counts()하는 것은 알겠는데, 어떤 회차에서는 또 이것을 pop하기도 해서, 어떨때 pop을 하는 것인지도 분간이 잘 안갑니다ㅠ

  • 로그, 지수 수치 변환도, 수치형 데이터가 어떨 때 하고 어떨 때 안하는지 헷갈립니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 18. 00:03

문제 데이터가 어떻게 출제 될지 모르고, 1가지 방법으로만 준비했다가 40점을 날리는 일이 절대 없도록 다양한 전처리 방식을 보여 드리고자 했어요~!!

당장 시험이 이번 주라 우선은 "기출(작업형2) 한 가지 방법으로 풀기 🆕 updated 2024.6"

이 강의를 먼저 봐주시겠어요? 원하는대로 1가지 방법으로만 풀이하고 있어요!

 

 

  • 로그 변환 -> 하지 마세요

  • 스케일링 -> 선택 (이미 숫자 데이터임)

  • 인코딩 -> 필수 (문자라 숫자 변환 필요)

남은 기간동안 좀 더 시간을 투자해주세요!!

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 17. 23:51

안녕하세요, 인프런 AI 인턴입니다.

질문 내용을 통해, 데이터 전처리와 피처 엔지니어링 과정에서 수행해야 할 작업들에 관한 구체적 기준에 대해 혼란을 느끼고 계신 것 같습니다. 특히 언제 스케일링을 진행해야하고, 원핫인코딩을 적용해야 하는지, 그리고 타겟 변수의 처리 방법에 대한 질문이 있으신 것으로 보입니다.

각 명시된 점들에 대한 질문을 바탕으로 유사한 답변 링크 세 개를 제공해드립니다. 이 답변들은 데이터 전처리시 타겟값의 종류에 따른 처리 방법과, 범주형 및 수치형 데이터의 처리 방법에 대한 설명을 포함하고 있습니다.

  1. 데이터 전처리시 궁금점!

    • 이 답변에서는 범주형 데이터와 수치형 데이터를 언제 어떻게 처리하는지에 대한 기준을 설명하고 있습니다.
    • 특히, 범주형 데이터인 경우 라벨이나 원핫 인코딩을 적용하고, 수치형 데이터의 경우 민맥스 스케일러나 z스케일러를 적용하는 일반적인 원칙에 대해 설명합니다.
  2. 피처 엔지니어링 전체 과정

    • 데이터를 전처리하고 피처 엔지니어링 할 때의 전반적인 과정에 대한 설명입니다. 이 질문에 대해 작성된 답변은 데이터 전처리 시 결측값과 이상값을 처리하는 방법, 수치형 및 범주형 변수의 처리 방법에 대해 잘 정리되어 있습니다.
  3. 4회 작업형 2번 풀이 질문있습니다.

    • 명시적으로 데이터 전처리 과정에서의 다양한 접근과 스케일링 및 인코딩 방법의 적용에 대한 질문에 답변을 제공합니다. 또한, 학습 데이터를 이용한 모델 평가의 중요성에 대해서도 언급합니다.

이들 답변에서는 범주형 및 수치형 데이터의 전처리 방법, 스케일링 및 인코딩 적용 시점과 기준, 그리고 타겟변수 처리 방안에 대한 구체적인 지침을 제공합니다.

전처리 방법은 해당 데이터의 특성과 모델의 요구사항에 따라 달라질 수 있음을 이해하는 것이 중요합니다. 또한, 전처리 과정에서 데이터를 이해하고 문제의 요구사항을 정확히 파악하는 것이 중요하며, 기본적으로는 데이터 전처리시 결측치 처리, 이상치 탐색 및 처리, 스케일링 및 인코딩의 적용이 주요 작업으로 이루어집니다. 타겟 변수 처리는 분석 목표에 따라 달라질 수 있는데, 회귀 분석인 경우 연속형 수치의 타겟 값을 직접 사용하고, 분류 문제에서는 라벨 인코딩이나 원-핫 인코딩을 통해 범주형 타겟 변수를 처리합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

슬화님의 프로필 이미지

작성한 질문수

질문하기