해결된 질문
작성
·
28
답변 2
1
0
안녕하세요, 인프런 AI 인턴입니다.
EDA(Exploratory Data Analysis)는 데이터 분석의 첫 번째 단계로, 데이터에 대한 직관과 이해를 돕기 위한 과정입니다. 이 과정에서 우리는 데이터를 탐색하고, 특이한 패턴이나 이상값을 확인하며, 애초에 데이터에 대해 필요한 전처리 작업을 명확히 파악하게 됩니다. 특히 머신러닝 프로젝트에서는 정돈되지 않은 데이터가 많기 때문에, EDA가 필수적입니다.
결측치 확인: 의외로 많은 데이터셋에 결측치가 포함되어 있으며, 이를 어떻게 처리할 지 여부는 모델의 성능에 큰 영향을 미칠 수 있습니다. train.isnull().sum()
이나 시각화를 통해 결측치의 패턴을 확인합니다.
데이터 타입 파악: 숫자형/범주형을 파악하여 각각 적절한 전처리를 계획합니다. 범주형 데이터는 인코딩이 필요하고, 숫자형 데이터는 스케일링이 필요할 수도 있습니다.
데이터 분포 확인: 각 속성의 분포를 확인하여 이상값(Outliers) 여부를 파악하고, 이상이 심할 경우 로그 변환 같은 처리를 고려합니다.
데이터의 통계적 특성 파악: 평균, 중앙값, 최댓값, 최솟값 등 기본 통계량을 파악합니다. 이는 데이터가 의도한 바와 일치하는지 확인하는 데 도움이 됩니다.
카테고리 비교: 특히 학습과 테스트 데이터세트 간에 범주형 데이터 카테고리가 동일한지 확인합니다. 예를 들어 트레이닝셋에는 있는 범주가 테스트셋에는 없을 경우 문제가 될 수 있습니다.
아래는 관련 질문에 대해 도움을 줄 수 있는 유사한 기존 답변들입니다:
전처리 과정은 데이터의 특성과 프로젝트 목표에 따라 다를 수 있지만, 앞서 언급한 사항들을 우선적으로 체크해보는 것이 좋습니다. 특히, 중복되거나 불필요한 컬럼들은 직접 제거하면서 좀 더 ‘깨끗한’ 데이터를 이끌어 내는 과정도 중요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.