해결된 질문
작성
·
50
·
수정됨
0
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
작업형1 모의고사1 1번 문제 f1의 결측치를 중앙값으로 채우는 문제에서 다시 보니, f1의 중앙값이 결측치의 합계(31+28+4=63)개와 일치했습니다. 그래서 중앙값?이 대체 무슨값인지 궁금했습니다. 결측치 합계액과 일치하는 것이 우연의 일치인지 결측치 합계액을 의미하는지 궁금합니다.
f1컬럼에 중앙값 63을 채웠다는 <아래 이미지> 0~99까지 f1컬럼의 행(?)의 인덱스 옆 숫자?가 결측치를 채운 값이라는데 의미를 이해 못했습니다.
이후 df['f1']으로 저장한 후 print(df.isnull( ).sum( ))을 통해 결측치를 채운 이후값이 f1 0으로 떨어지는데 이 개념을 이해 못했습니다. 쉽게 한 번 정리 부탁드립니다.
기초통계량 describe( )에는 평균(mean)만 있고, 최빈값(mood), 중앙값(meadian)이 없다는 사실을 확인했습니다.
왜 없는지 모르겠군요. 기초통계량 확인할 때와는 달리 이번 문제는 초기에 데이터를 하나씩 들여다 봐서 전체 데이터의 윤곽을 이해하지 못한 채 진행이 되는 느낌입니다.
의문인 것은 기초통계량의 50%(2사분위수)와 중앙값의 개념 차이입니다. 개념이 약해서 중앙값, 평균값, 2사분위수의 개념이 전반적으로 흔들립니다. 50%와 중앙값은 같은 건지 다른건지 궁금합니다.
답변 2
0
중앙값이란 데이터가 ‘가장 가운데’에 있는 값이지, 결측치 개수(혹은 결측치들의 합)와는 전혀 관련이 없습니다.
결측값(비어있는 곳)에 어떤 특정 값(여기서는 중앙값 63)을 넣어 준것을 이야기 합니다.
df.isnull( ) 의 결과는 True/False로 결과가 나옵니다 이를 sum()으로 계산하면 True는 1, False는 0으로 계산되기 떄문에 결측치가 없는 경우 총합은 0입니다.
중앙값(median)과 2사분위수(50%)는 같은 개념입니다.
0
안녕하세요, 인프런 AI 인턴입니다. 강민균님.
질문해주신 내용을 바탕으로 몇 가지 관련된 정보를 찾아 보았습니다. 우선, 이 링크에서 설명된 사례에서 데이터의 결측치를 중앙값으로 채우는 방법을 설명하고 있습니다. ‘중앙값’은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값입니다. 데이터의 분포를 파악할 때 유용하며, pandas에서 fillna()
와 median()
함수가 어떻게 사용되는지 알 수 있습니다.
결측치를 중앙값으로 대체: 중앙값은 데이터 리스트를 오름차순으로 정렬했을 때 가장 중앙에 위치한 값이며, 결측값을 대체할 때 유용합니다. 이는 극단값에 대한 영향을 최소화하기 때문인데요, pandas의 fillna()
함수와 median()
함수를 조합하여 결측치를 중앙값으로 쉽게 채울 수 있습니다.
이미지에서의 중앙값: 이미지 참고 링크가 제공되어 이해에 도움이 되었습니다. 중앙값은 데이터 열의 중간 값에 해당합니다.
describe() 함수 이해: pandas의 describe()
함수는 기본적으로 평균, 표준편차, 최소/최대값, 사분위수만을 제공하지만, 중앙값(median) 등은 기본 출력에 포함되지 않습니다. 중앙값은 별도로 median()
함수를 통해 확인할 수 있습니다.
중앙값과 2사분위수: 일반적으로 중앙값과 2사분위수는 같은 의미로 사용됩니다. 2사분위수는 4등분한 데이터 구간 중 2번째에 위치해 있어 중앙에 해당합니다.
만약 여전히 의문이 남아 있거나 문제 접근 방법에 대한 추가적인 조언이 필요하시면, 관련된 질문 및 강의 콘텐츠를 통해 단계별로 다시 접근해 보실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.