22.02.09 17:35 작성
·
320
답변 1
0
2022. 02. 09. 18:28
안녕하세요.
어떤 데이터를 분석하든 데이터를 불러오면 기본적으로 보는 정보들이 있습니다.
shape를 통한 행과 열의 수라든지 info() 를 통해 데이터를 요약해 본다든지
describe()를 통해 기술 통계를 보고
isnull() 을 통해 결측치 여부를 봅니다. 이렇게 데이터가 전체적으로 어떻게 구성되었는지 살펴보는 과정을 EDA 라고 하며 Exploratory Data Analysis, 탐색적 데이터 분석 이라고 부릅니다.
결측치가 많은 변수가 있다면 해당 변수를 사용할지 여부를 판단해 볼 수 있으며
또 해당 결측치가 왜 발생했는지 조사해 볼 수 있겠죠.
실습에서도 EDA 의 기본 과정으로 결측치를 보았습니다.
결측치가 많은 변수는 분석에 꼭 필요하지 않다면 제거를 해볼 수도 있을것이고요.
데이터의 용량이 커서 메모리를 많이 차지 한다거나 하면 사용하지 않는 변수를 제거해서 메모리를 효율적으로 사용해 볼 수도 있을거에요.
2022. 02. 10. 09:42
아아 EDA 과정을 위해서, 데이터를 탐색해 보는 과정이었군요.
데이터를 분석하기 전에, 이러한 과정을 통해서 데이터가 어떻게 구성되었는지 살펴보는 과정이 중요한 것 같아요.
오늘도 하나 더 배우고 가는 것 같아요 ㅎㅎ 감사합니다 선생님!
아직 부족하지만, 배운것을 활용해서 다른 데이터 셋을 활용하여서 seaborn 을 이용해서 시각화를 하는 과정을 혼자 연습 해 보았는데, 강의를 보면서 따라하다가 혼자하려고 하니 처음에 데이터 경로설정 하는 것도 중요하겠구나 생각했었고,
그때는 EDA 과정을 제대로 진행하지 않았었는데 앞으로는 데이터 분석을 위해서는 필수적인 과정이 될것 같아요.
데이터 분석 분야에 대해 관심이 있고, 이 분야에 대해 궁금한게 많은데 개인적인 질문도 받아주실 수 있으실까요??