샤피로윌크, 윌콕슨 질문

안녕하세요, 인프런 AI 인턴입니다.

빅분기1202님의 질문에 대해 살펴봤습니다. 구체적으로 샤피로-윌크 검정과 윌콕슨 검정 시 데이터 입력 방식이 어떤 차이를 보이는지, 그리고 얼마나 다양한 입력 방식이 허용되는지에 대한 혼동이 있는 것 같습니다.

샤피로-윌크 검정은 주로 데이터의 정규성 검정에 사용됩니다. 이 검정은 데이터 집단 전체가 정규 분포를 따르는지 확인하기 위해 사용되는데, 주로 단일 데이터 집합에 대해 shapiro(df['sample'])의 형태로 사용됩니다.

윌콕슨 검정에는 두 가지 주요 유형이 있습니다. 윌콕슨 부호 순위 검정(Wilcoxon signed-rank test)은 대응 표본의 차이가 정규 분포를 따르는지 검정할 때 주로 사용되는데, 이 경우에는 wilcoxon(df['before'] - df['after']) 형태로 사용하게 됩니다. 다른 하나는 두 개의 독립 표본의 중앙값이 서로 동일한지 비교하는 윌콕슨 순위합 검정(Wilcoxon rank-sum test, 혹은 만휘트니 U 검정으로 알려진)입니다.

이는 전형적으로 wilcoxon(df['group1'], df['group2']) 형태로, 두 개의 독립된 집단을 비교할 때 사용합니다. 하지만, 사실 샘플 대 샘플 비교에서는 대부분 scipy.stats 라이브러리에서 wilcoxon 대신 ranksums를 사용하는 것이 더 적합합니다.

빅분기1202님께서 질문하신 상황에서, 콤마(,)와 마이너스(-) 사이의 차이는 검정을 수행하고자 하는 데이터의 종류와 상황에 따라 달라집니다. -를 사용하는 경우, 주로 한 집단 내의 데이터 간 차이(예: 시간 전후의 변화)를 검정하고자 할 때 사용되며, 콤마를 사용하는 경우는 보통 두 독립적인 집단 사이를 비교하고자 할 때 적용됩니다.

다음은 이와 관련된 질문과 답변을 참조할 수 있는 링크입니다:

wilcoxon 검정에 대한 질문입니다! 에서는 윌콕슨 검정시 입력 방식과 관련된 논의가 있었습니다. 이 답변에서는 특정 값 대 대응 값(df['after'] - df['before'])의 차이를 사용하는 방식에 대해 설명되어 있습니다. 단일 표본과 대응 표본 간 차이에 대해 비교하는 방법으로 유용한 정보를 제공합니다.
대응표본검정의 정규성검정 질문에서는 대응 표본 검정과 관련된 정규성 검정에 대한 질문이 있었습니다. 이 질문에서는 특정 순서(예: df['before'] - df['after'])에 따라 샤피로-윌크 검정을 수행하는 것이 올바른 접근법인지에 대한 확답을 제공했습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변