해결된 질문
작성
·
127
·
수정됨
0
dls1004 - '통계분석을 활용한 인사이트 도출' 강의 중
매출 상위 0.5% 금액이 왜 3시그마가 되는 건가요?(그냥 표준편차에 대한 개념이라 외우는건지..)
이론에서는 상위 2.5% (매출의 95%의 비중) 까지 나왔고
0.5%에 대한 언급이 따로 없고이바로 개념을 적용하신 것 같아서 질문드립니다.
추가로 교재에 내용에 있는 것 처럼 상위 1%, 같은 상위5%, 10% 이런 식으로 다른 비율로 도출해야할 때에는 어떤 방법을 활용하면 될까요?
(예를들어 누계비율이 아닌 다른 기준으로 설정을 한다던지, 표준편차를 적용하지 않더라도 활용법에 대해 설명해주시면 감사하겠습니다.)
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
님의 질문은 데이터 분석과 관련된 학습 콘텐츠에 대한 것으로 보이는데요, 제공된 정보 중에서 곧바로 관련된 내용을 찾을 수 없습니다. 하지만, 일반적인 데이터 분석 이론을 바탕으로 답변드리겠습니다.
매출의 상위 0.5%가 3시그마로 표현되는 것은 정규 분포의 특성에서 비롯됩니다. 정규 분포에서는 데이터의 약 68.2%가 평균에서 표준편차 1시그마 내에, 약 95.4%가 2시그마 내에, 그리고 약 99.7%가 3시그마 내에 위치합니다. 따라서, 매출의 상위 0.5%가 3시그마에 해당한다면 이는 매출 데이터가 정규 분포를 따른다고 가정했을 때의 이론적 추정일 수 있습니다.
상위 1%, 5%, 10% 등 다른 비율로 매출 등의 데이터를 분석할 때는 분위수(Quantile) 또는 백분위수(Percentile)을 활용할 수 있습니다. 이는 전체 데이터를 백분율로 나눈 값에서 특정 위치의 값을 찾는 방법으로, 데이터의 분포가 정규 분포를 따르지 않을 경우에도 적용 가능합니다. 예를 들어, 상위 5%에 해당하는 값을 찾고자 한다면, 전체 데이터의 95번째 백분위수를 계산하게 됩니다.
누계 비율이 아닌 다른 기준을 설정할 때는 데이터의 특성과 분석 목적에 따라 다양한 통계적 방법을 활용할 수 있습니다. 정규 분포를 가정할 수 없는 경우, 비모수적 방법이나, 변환을 통해 데이터를 정규 분포에 가깝게 만든 뒤 분석하는 방법 등이 있습니다.
데이터 분석에는 다양한 접근 방법이 있기 때문에, 학습하고 계신 강의 내용을 바탕으로 추가로 학습하거나, 관련된 더 구체적인 예시와 함께 질문하시면 더욱 도움이 될 수도 있습니다.