데이터 사이언스 통계 기초(1) : 가설검증 이해하기

통계를 공부할 때 추론통계에서 제일 먼저 만나는 큰 산이 가설검증에 대한 이해입니다. 용어도 낯설고 매우 헷갈립니다. 가설검증의 절차에 대한 설명은 훌륭하게 정리된 정보를 많이 찾을 수 있습니다. 하지만 왜 그리고, 어떠한 관점으로 가설검증을 이해해야 하는가에 대한 글은 부족해 보여, 통계와 함께 데이터 사이언스 공부를 시작하시는 분들에게 도움이 되고자 가설검증의 논리에 대해 정리해 봅니다.

이 글은 연세대학교 경영학과 양혁승 교수님의 저서인 <비전공자를 위한 통계방법론>을 참고하여 정리했음을 알립니다. (강추합니다.)

연구 가설의 설정과 검증

데이터를 이용한 실증연구의 구성은 이론과 방법론으로 나뉩니다. 이론 부분은 검증하고자 하는 가설(Hypothesis)을 제시하고 방법론 부분은 검증기법을 통해 합당한 가설인지 판정하는 작업을 합니다.

진행하기 전에 확인해야 할 점이 있습니다. 가설이라 함은 이론에 근거하여 모집단에서 성립할 것이라 주장하는 내용이고, 이 가설이 합당한지를 판단하는 가설검증은 표본데이터를 활용하여 이루어진다는 점입니다. 이렇게 표본된 샘플을 토대로 가설을 이용해 모집단을 추정하는 방법을 통계적 추정(Statistical inference)이라 합니다.

대립가설과 귀무가설

하나의 가설을 예로 들어봅니다,

가설 : 학습시간은 학업성취도와 유의한 관계를 가질 것이다.

이 가설의 모집단은 대한민국의 대학생이라 가정해 봅니다. 변수는 학습시간과, 학업성취도가 될 것이고, 이 가설에서 관심을 가지게 되는 모수는 두 변수의 연관성을 나타내는 상관계수가 됩니다. 여기서 검증하기 원하는 바는 두 변수가 유의미한 관계 존재할 것이라는 주장의 진위 여부가 됩니다. 참고로 상관계수란 서로 다른 변수의 연관도를 표현하는 지표로 0에 가까울 수록 연관관계가 없다고 판단하게 됩니다.

위와 같이 주장하고자 하는 바를 대립가설로 설정하고, 대립가설의 여집합을 귀무가설로 설정합니다. 위의 가설을 대립가설과 귀무가설로 정리해 보면 아래와 같습니다. (수식과 기호는 가능한 피해 봅니다.)

대립가설 : 학습시간과 학업성취도 사이의 상관계수는 0이 아닐 것이다.
귀무가설 : 학습시간과 학업성취도 사이의 상관계수는 0이다.

가설검증에서 귀무가설의 역할

귀무가설은 가설검증 과정에서 기각하려는 대상입니다. 대립가설의 여집합인 귀무가설을 기각함으로써 주장하고자 하는 대립가설이 옳다는 결론에 도달하려는 것입니다. 높은 확신을 가지고 귀무가설이 옳지 않다는 주장을 할 수 있다면, 같은 수준으로 대립가설이 옳다고 주장할 수 있습니다. 또한 귀무가설이 옳지 않다는 주장의 근거가 없다면, 대립가설이 옳다는 주장을 할 수 없습니다. 결국 본인의 가설(대립가설)이 맞다는 것을 입증하기 위해서 반대되는 가설(귀무가설)을 세우고 이것이 잘못되었다는 근거를 찾는 것이 가설검증의 논법입니다.

가설검증에서 통계적 접근

위의 검증을 간편하게 하기 위해 표본통계량을 표준화합니다. 표본통계량으로 부터 표준화 된 것을 검증통계량이라 합니다. 대부분의 이론적인 공식 속에는 모집단의 통계량이 변수로 포함되어 있습니다. 하지만, 우리는 이 모집단의 실제 통계량을 알 수 있는 방법이 없습니다. 그래서 이 모집단의 통계량 대신에 샘플링해서 얻은 표본통계치를 대신 대입하여 계산하게 됩니다. 이렇게 구한 통계치는 이론적인 모집단의 통계치와 같을 수 없으며 일정한 오차(error)가 개입됩니다. 표본의 수가 늘어날 수록 이 오차는 줄어들 것이라 예상할 수 있습니다. 따라서 오차가 개입되어 구해진 검증통계량은 표준정규분포에서 약간 벗어난 t-분포를 따르게 되고, 대부분의 가설검증에서는 이 t-분포를 사용하게 됩니다.

유의수준과 기각영역

위에서 설정한 귀무가설이 옳다면, 표본분포에서 무작위로 뽑은 값들은 표본분포의 중앙값(상관계수가 0)에 근접한 값일 확률이 높을 겁니다. 그리고, 중앙값에서 멀리 떨어진 값일 수록 뽑일 확률은 작아집니다. 따라서 하나의 표본에서 얻은 표본상관계수 값이 중앙에서 어느정도 멀리 떨어진 값이 아니라면 귀무가설을 기각할 수 없게 됩니다.

반대로 0에서 멀리 떨어진 값(확률적으로 발생가능성이 매우 낮은 값)이라면 귀무가설을 기각할 수 있게 됩니다. 왜냐하면 해당 표본상관계수 값이 귀무가설이 옳다는 가정 하에 설정한 표본분포에서 무작위로 뽑아 나온 값이라고 보기에는 확률적으로 가 가능성이 매우 낮기 때문입니다.

그렇다면, 표준화한 검증통계량이 가지는 t-분포에서 얼마나 떨어진 값인 경우에 귀무가설을 기각할 지 판단할 기준이 필요합니다. 이 기준치를 기각영역의 경계값이라 하고, 표본상에서 나온 값으로 받아들일 수 없는 기준확률을 유의수준(α)이라 합니다. 위의 확률분포에서 우리가 얻은 검증통계치가 나올 확률이 유의수준보다 작다면 우리는 귀무가설을 기각할 수 있습니다.

p-value의 중요성과 해석

귀무가설을 기각할 지 여부를 판단하는 방법 중 유의확률(p-value)를 활용하는 방법도 있습니다. 가장 널리 쓰이는 방법이고, 많은 분석 라이브러리에서 분석결과에 포함되는 값입니다.

유의확률이란 귀무가설이 옳다는 가정하에 얻은 표본분포에서 이 분포로 부터 얻은 표본통계치보다 같거나 더 극단적인 값이 나올 확률을 이야기 합니다. 다시 이야기하면, 표준화된 표본분포량의 중앙값에서 가능한 멀리 떨어진 값이 나오는 확률입니다. 이 확률이 유의수준 보다 작다면 귀무가설을 기각할 수 있는 근거를 얻고, 대립가설을 채택하게 됩니다. (양측검정과 단측검정의 차이가 있지만, 이 글에서는 다루지 않습니다.)

마무리

가설검증에서의 대립가설과 귀무가설이 무엇인지 살펴보았습니다. 또한, 어떤 논리에 의해 귀무가설을 기각하고 대립가설을 채택하는 전반적인 가설검증의 논리를 정리해 보았습니다.