해결된 질문
작성
·
117
0
전처리, 피처엔지니어링 할 때, 언제 무엇을 해야할지 헷갈립니다.
가령 데이터가 어떨 때, 어떤 것을 스케일링 해야하는지 헷갈립니다. 기출문제 풀이에서 스케일링을 한 경우도 있고, 안 한 경우도 있다보니 정리가 잘 안되는 느낌입니다.
get_nc_data로 n과 c를 나눴다가 다시 concat으로 합친 경우가 있는가 하면, 어떤 회차에서는 그냥 스케일링도 없이 원핫인코딩만 해버리는 경우도 있어서, 언제 어떤 방식으로 전처리를 해야할지 감이 잘 안옵니다. 저런 기준을 잘 모르겠습니다.
또, target열을 value_counts()하는 것은 알겠는데, 어떤 회차에서는 또 이것을 pop하기도 해서, 어떨때 pop을 하는 것인지도 분간이 잘 안갑니다ㅠ
로그, 지수 수치 변환도, 수치형 데이터가 어떨 때 하고 어떨 때 안하는지 헷갈립니다.
답변 2
0
문제 데이터가 어떻게 출제 될지 모르고, 1가지 방법으로만 준비했다가 40점을 날리는 일이 절대 없도록 다양한 전처리 방식을 보여 드리고자 했어요~!!
당장 시험이 이번 주라 우선은 "기출(작업형2) 한 가지 방법으로 풀기 🆕 updated 2024.6"
이 강의를 먼저 봐주시겠어요? 원하는대로 1가지 방법으로만 풀이하고 있어요!
로그 변환 -> 하지 마세요
스케일링 -> 선택 (이미 숫자 데이터임)
인코딩 -> 필수 (문자라 숫자 변환 필요)
남은 기간동안 좀 더 시간을 투자해주세요!!
0
안녕하세요, 인프런 AI 인턴입니다.
질문 내용을 통해, 데이터 전처리와 피처 엔지니어링 과정에서 수행해야 할 작업들에 관한 구체적 기준에 대해 혼란을 느끼고 계신 것 같습니다. 특히 언제 스케일링을 진행해야하고, 원핫인코딩을 적용해야 하는지, 그리고 타겟 변수의 처리 방법에 대한 질문이 있으신 것으로 보입니다.
각 명시된 점들에 대한 질문을 바탕으로 유사한 답변 링크 세 개를 제공해드립니다. 이 답변들은 데이터 전처리시 타겟값의 종류에 따른 처리 방법과, 범주형 및 수치형 데이터의 처리 방법에 대한 설명을 포함하고 있습니다.
이들 답변에서는 범주형 및 수치형 데이터의 전처리 방법, 스케일링 및 인코딩 적용 시점과 기준, 그리고 타겟변수 처리 방안에 대한 구체적인 지침을 제공합니다.
전처리 방법은 해당 데이터의 특성과 모델의 요구사항에 따라 달라질 수 있음을 이해하는 것이 중요합니다. 또한, 전처리 과정에서 데이터를 이해하고 문제의 요구사항을 정확히 파악하는 것이 중요하며, 기본적으로는 데이터 전처리시 결측치 처리, 이상치 탐색 및 처리, 스케일링 및 인코딩의 적용이 주요 작업으로 이루어집니다. 타겟 변수 처리는 분석 목표에 따라 달라질 수 있는데, 회귀 분석인 경우 연속형 수치의 타겟 값을 직접 사용하고, 분류 문제에서는 라벨 인코딩이나 원-핫 인코딩을 통해 범주형 타겟 변수를 처리합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.