인프런 커뮤니티 질문&답변

lrs1126님의 프로필 이미지
lrs1126

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

Mann-Whitney U검정 P밸류가 0.4

해결된 질문

작성

·

448

0

독립표본검정 마지막 강의에서 마지막 코드 Mann-Whitney U검정 P밸류가 0.40이 나왔는데 0.05보다 작으니까 대립가설을 채택한다고 말씀하신 것 같아서요. 왜냐하면 위에 독립표본검정에서는 p밸류가 0.02가 나와서 B그룹의 시험 평균 점수가 더 높다는 대립가설을 채택하게 되는데 만휘트니유 검정의 결과는 귀무가설을 채택하는 수치가 나와서 결과적으로 결론이 다르게 되는데, 이것은 왜 이런 것인가요?

# Mann-Whitney U(만-휘트니 유) 검정

stats.mannwhitneyu(A, B, alternative='less')

MannwhitneyuResult(statistic=106.0, pvalue=0.40944636368515097)

답변 1

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

Mann-Whitney U 검정의 p-값이 0.40으로 나왔다면, 이는 대립가설을 채택하기에는 충분히 낮지 않은 값입니다. 즉, p-값이 0.05보다 크므로 귀무가설을 기각하지 않고, 두 그룹 간에는 유의미한 차이가 없다고 결론 내리는 것이 타당합니다.

확인 후에 수정하도록 하겠습니다. 감사합니다.

lrs1126님의 프로필 이미지
lrs1126
질문자

감사합니다!! 제가 GPT에 물어보았는데, 답변을 보니, 아마 분포의 차이(선생님께서 분산이 같다는 가정을 깨기 위해 심화학습에서는 변형하시면서 입력하신 값들)때문일 것이라고 생각합니다. 아래는 GPT4가 답변한 결과 입니다.

두 그룹 A와 B의 데이터에 대해 독립표본 t-검정(`stats.ttest_ind`)과 만-위트니 U 검정(`stats.mannwhitneyu`)을 수행했을 때 서로 다른 결과가 나타나는 이유를 이해하기 위해서는 두 검정 방법의 차이점을 고려해야 합니다.

1. 독립표본 t-검정 (Independent Samples t-test):

- 가정: 두 독립적인 그룹의 데이터가 정규 분포를 따른다는 가정이 필요합니다. 또한, 등분산성을 가정하는 버전과 가정하지 않는 버전(`equal_var=False`)이 있습니다.

- 사용: 이 검정은 평균값의 차이에 초점을 맞추고, 데이터가 정규 분포를 따를 때 효과적입니다.

2. 만-위트니 U 검정 (Mann-Whitney U Test):

- 가정: 데이터가 정규 분포를 따르지 않거나, 샘플 크기가 작을 때 사용합니다. 이 검정은 데이터의 분포 형태에 대한 가정을 하지 않습니다.

- 사용: 이 검정은 중앙값의 차이를 비교하며, 순위에 기반한 비모수적 방법입니다.

여기서 주목할 점은 독립표본 t-검정은 데이터가 정규 분포를 따른다는 가정 하에 사용되는 반면, 만-위트니 U 검정은 그러한 가정이 필요 없다는 것입니다.

귀하의 경우, 두 검정법이 서로 다른 결과를 나타낸 이유는 아마도 다음과 같습니다:

- 데이터 분포의 차이: A와 B 그룹의 데이터가 정규 분포를 따르지 않거나, 이상치의 영향을 받을 수 있습니다. 만약 데이터가 정규 분포를 따르지 않는다면, 만-위트니 U 검정의 결과가 더 신뢰할 수 있습니다.

- 이상치의 영향: 독립표본 t-검정은 이상치에 민감할 수 있으며, 이상치가 결과에 큰 영향을 미칠 수 있습니다. 반면, 만-위트니 U 검정은 이상치에 덜 민감합니다.

결론적으로, 두 검정법 사이의 결과 차이는 데이터의 분포 특성과 이상치의 영향에 기인할 수 있습니다. 데이터의 분포를 시각적으로 확인하거나, 추가적인 통계적 검증을 통해 더 명확한 결론을 도출할 수 있습니다.

lrs1126님의 프로필 이미지
lrs1126

작성한 질문수

질문하기