채널톡 아이콘

인프런 커뮤니티 질문&답변

강민균님의 프로필 이미지

작성한 질문수 26

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제1

작업형1 모의고사1 1번 문제 재질문 드립니다.

해결된 질문

작성

·

50

·

수정됨

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

  1. 작업형1 모의고사1 1번 문제 f1의 결측치를 중앙값으로 채우는 문제에서 다시 보니, f1의 중앙값이 결측치의 합계(31+28+4=63)개와 일치했습니다. 그래서 중앙값?이 대체 무슨값인지 궁금했습니다. 결측치 합계액과 일치하는 것이 우연의 일치인지 결측치 합계액을 의미하는지 궁금합니다.

 

  1. f1컬럼에 중앙값 63을 채웠다는 <아래 이미지> 0~99까지 f1컬럼의 행(?)의 인덱스 옆 숫자?가 결측치를 채운 값이라는데 의미를 이해 못했습니다.

     

    질문7.JPG.webp

     

  2. 이후 df['f1']으로 저장한 후 print(df.isnull( ).sum( ))을 통해 결측치를 채운 이후값이 f1 0으로 떨어지는데 이 개념을 이해 못했습니다. 쉽게 한 번 정리 부탁드립니다.

 

  1. 기초통계량 describe( )에는 평균(mean)만 있고, 최빈값(mood), 중앙값(meadian)이 없다는 사실을 확인했습니다.

    왜 없는지 모르겠군요. 기초통계량 확인할 때와는 달리 이번 문제는 초기에 데이터를 하나씩 들여다 봐서 전체 데이터의 윤곽을 이해하지 못한 채 진행이 되는 느낌입니다.

    의문인 것은 기초통계량의 50%(2사분위수)와 중앙값의 개념 차이입니다. 개념이 약해서 중앙값, 평균값, 2사분위수의 개념이 전반적으로 흔들립니다. 50%와 중앙값은 같은 건지 다른건지 궁금합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 중앙값이란 데이터가 ‘가장 가운데’에 있는 값이지, 결측치 개수(혹은 결측치들의 합)와는 전혀 관련이 없습니다.

  2. 결측값(비어있는 곳)에 어떤 특정 값(여기서는 중앙값 63)을 넣어 준것을 이야기 합니다.

  3. df.isnull( ) 의 결과는 True/False로 결과가 나옵니다 이를 sum()으로 계산하면 True는 1, False는 0으로 계산되기 떄문에 결측치가 없는 경우 총합은 0입니다.

  4. 중앙값(median)과 2사분위수(50%)는 같은 개념입니다.

0

인프런 AI 인턴님의 프로필 이미지

안녕하세요, 인프런 AI 인턴입니다. 강민균님.

질문해주신 내용을 바탕으로 몇 가지 관련된 정보를 찾아 보았습니다. 우선, 이 링크에서 설명된 사례에서 데이터의 결측치를 중앙값으로 채우는 방법을 설명하고 있습니다. ‘중앙값’은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값입니다. 데이터의 분포를 파악할 때 유용하며, pandas에서 fillna()median() 함수가 어떻게 사용되는지 알 수 있습니다.

  1. 결측치를 중앙값으로 대체: 중앙값은 데이터 리스트를 오름차순으로 정렬했을 때 가장 중앙에 위치한 값이며, 결측값을 대체할 때 유용합니다. 이는 극단값에 대한 영향을 최소화하기 때문인데요, pandas의 fillna() 함수와 median() 함수를 조합하여 결측치를 중앙값으로 쉽게 채울 수 있습니다.

  2. 이미지에서의 중앙값: 이미지 참고 링크가 제공되어 이해에 도움이 되었습니다. 중앙값은 데이터 열의 중간 값에 해당합니다.

  3. describe() 함수 이해: pandas의 describe() 함수는 기본적으로 평균, 표준편차, 최소/최대값, 사분위수만을 제공하지만, 중앙값(median) 등은 기본 출력에 포함되지 않습니다. 중앙값은 별도로 median() 함수를 통해 확인할 수 있습니다.

  4. 중앙값과 2사분위수: 일반적으로 중앙값과 2사분위수는 같은 의미로 사용됩니다. 2사분위수는 4등분한 데이터 구간 중 2번째에 위치해 있어 중앙에 해당합니다.

만약 여전히 의문이 남아 있거나 문제 접근 방법에 대한 추가적인 조언이 필요하시면, 관련된 질문 및 강의 콘텐츠를 통해 단계별로 다시 접근해 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.