탐색적 데이터 분석에서 뭘 캐치해야하는지 모르겠어요

Question

EDA를 할때 무엇을 알아내서 전처리를 해야하는지 너무 헷갈려요

결측치가 있는지 없는지 보고, 칼럼 갯수확인하고, 트레인과 테스트셋의 카테고리 수 비교 ? 이런것만하면될까요 ㅠㅠ.. 아직 EDA에서 전처리로 연결하는 감을 못잡겠어요..(큰일났어요...)

퇴근후딴짓 · Answer

큰일까진 아니에요~

말씀하신 내용정도 확인하면 됩니다.

에러가 난다면 데이터를 출력해서 살펴보면 됩니다.

EDA는 필수는 아니니 너무 부담가지지 마세요!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다.

EDA(Exploratory Data Analysis)는 데이터 분석의 첫 번째 단계로, 데이터에 대한 직관과 이해를 돕기 위한 과정입니다. 이 과정에서 우리는 데이터를 탐색하고, 특이한 패턴이나 이상값을 확인하며, 애초에 데이터에 대해 필요한 전처리 작업을 명확히 파악하게 됩니다. 특히 머신러닝 프로젝트에서는 정돈되지 않은 데이터가 많기 때문에, EDA가 필수적입니다.

EDA에서 주로 확인해야 할 사항들:

결측치 확인: 의외로 많은 데이터셋에 결측치가 포함되어 있으며, 이를 어떻게 처리할 지 여부는 모델의 성능에 큰 영향을 미칠 수 있습니다. train.isnull().sum()이나 시각화를 통해 결측치의 패턴을 확인합니다.
데이터 타입 파악: 숫자형/범주형을 파악하여 각각 적절한 전처리를 계획합니다. 범주형 데이터는 인코딩이 필요하고, 숫자형 데이터는 스케일링이 필요할 수도 있습니다.
데이터 분포 확인: 각 속성의 분포를 확인하여 이상값(Outliers) 여부를 파악하고, 이상이 심할 경우 로그 변환 같은 처리를 고려합니다.
데이터의 통계적 특성 파악: 평균, 중앙값, 최댓값, 최솟값 등 기본 통계량을 파악합니다. 이는 데이터가 의도한 바와 일치하는지 확인하는 데 도움이 됩니다.
카테고리 비교: 특히 학습과 테스트 데이터세트 간에 범주형 데이터 카테고리가 동일한지 확인합니다. 예를 들어 트레이닝셋에는 있는 범주가 테스트셋에는 없을 경우 문제가 될 수 있습니다.

아래는 관련 질문에 대해 도움을 줄 수 있는 유사한 기존 답변들입니다:

EDA 카테고리 비교 질문에서는 서로 다른 데이터셋 간 범주형 데이터의 카테고리 수를 비교하는 방법에 대해 설명하고 있습니다. 이는 데이터 일관성을 유지하는 데 매우 중요합니다.
피처 엔지니어링 전체 과정에서는 기본적인 데이터 전처리와 피처 엔지니어링 과정에 대해 잘 정리되어 있으며, EDA에서 시작하여 전처리로 연결하는 방법에 대해 구체적으로 설명합니다.

전처리 과정은 데이터의 특성과 프로젝트 목표에 따라 다를 수 있지만, 앞서 언급한 사항들을 우선적으로 체크해보는 것이 좋습니다. 특히, 중복되거나 불필요한 컬럼들은 직접 제거하면서 좀 더 ‘깨끗한’ 데이터를 이끌어 내는 과정도 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

탐색적 데이터 분석에서 뭘 캐치해야하는지 모르겠어요

EDA에서 주로 확인해야 할 사항들: