블로그

모두의연구소

데이터 사이언스 통계 기초(1) : 가설검증 이해하기

통계를 공부할 때 추론통계에서 제일 먼저 만나는 큰 산이 가설검증에 대한 이해입니다. 용어도 낯설고 매우 헷갈립니다. 가설검증의 절차에 대한 설명은 훌륭하게 정리된 정보를 많이 찾을 수 있습니다. 하지만 왜 그리고, 어떠한 관점으로 가설검증을 이해해야 하는가에 대한 글은 부족해 보여, 통계와 함께 데이터 사이언스 공부를 시작하시는 분들에게 도움이 되고자 가설검증의 논리에 대해 정리해 봅니다.이 글은 연세대학교 경영학과 양혁승 교수님의 저서인 <비전공자를 위한 통계방법론>을 참고하여 정리했음을 알립니다. (강추합니다.)연구 가설의 설정과 검증데이터를 이용한 실증연구의 구성은 이론과 방법론으로 나뉩니다. 이론 부분은 검증하고자 하는 가설(Hypothesis)을 제시하고 방법론 부분은 검증기법을 통해 합당한 가설인지 판정하는 작업을 합니다.진행하기 전에 확인해야 할 점이 있습니다. 가설이라 함은 이론에 근거하여 모집단에서 성립할 것이라 주장하는 내용이고, 이 가설이 합당한지를 판단하는 가설검증은 표본데이터를 활용하여 이루어진다는 점입니다. 이렇게 표본된 샘플을 토대로 가설을 이용해 모집단을 추정하는 방법을 통계적 추정(Statistical inference)이라 합니다.대립가설과 귀무가설하나의 가설을 예로 들어봅니다,가설 : 학습시간은 학업성취도와 유의한 관계를 가질 것이다.이 가설의 모집단은 대한민국의 대학생이라 가정해 봅니다. 변수는 학습시간과, 학업성취도가 될 것이고, 이 가설에서 관심을 가지게 되는 모수는 두 변수의 연관성을 나타내는 상관계수가 됩니다. 여기서 검증하기 원하는 바는 두 변수가 유의미한 관계 존재할 것이라는 주장의 진위 여부가 됩니다. 참고로 상관계수란 서로 다른 변수의 연관도를 표현하는 지표로 0에 가까울 수록 연관관계가 없다고 판단하게 됩니다.위와 같이 주장하고자 하는 바를 대립가설로 설정하고, 대립가설의 여집합을 귀무가설로 설정합니다. 위의 가설을 대립가설과 귀무가설로 정리해 보면 아래와 같습니다. (수식과 기호는 가능한 피해 봅니다.)대립가설 : 학습시간과 학업성취도 사이의 상관계수는 0이 아닐 것이다.귀무가설 : 학습시간과 학업성취도 사이의 상관계수는 0이다.가설검증에서 귀무가설의 역할귀무가설은 가설검증 과정에서 기각하려는 대상입니다. 대립가설의 여집합인 귀무가설을 기각함으로써 주장하고자 하는 대립가설이 옳다는 결론에 도달하려는 것입니다. 높은 확신을 가지고 귀무가설이 옳지 않다는 주장을 할 수 있다면, 같은 수준으로 대립가설이 옳다고 주장할 수 있습니다. 또한 귀무가설이 옳지 않다는 주장의 근거가 없다면, 대립가설이 옳다는 주장을 할 수 없습니다. 결국 본인의 가설(대립가설)이 맞다는 것을 입증하기 위해서 반대되는 가설(귀무가설)을 세우고 이것이 잘못되었다는 근거를 찾는 것이 가설검증의 논법입니다.가설검증에서 통계적 접근위의 검증을 간편하게 하기 위해 표본통계량을 표준화합니다. 표본통계량으로 부터 표준화 된 것을 검증통계량이라 합니다. 대부분의 이론적인 공식 속에는 모집단의 통계량이 변수로 포함되어 있습니다. 하지만, 우리는 이 모집단의 실제 통계량을 알 수 있는 방법이 없습니다. 그래서 이 모집단의 통계량 대신에 샘플링해서 얻은 표본통계치를 대신 대입하여 계산하게 됩니다. 이렇게 구한 통계치는 이론적인 모집단의 통계치와 같을 수 없으며 일정한 오차(error)가 개입됩니다. 표본의 수가 늘어날 수록 이 오차는 줄어들 것이라 예상할 수 있습니다. 따라서 오차가 개입되어 구해진 검증통계량은 표준정규분포에서 약간 벗어난 t-분포를 따르게 되고, 대부분의 가설검증에서는 이 t-분포를 사용하게 됩니다.유의수준과 기각영역위에서 설정한 귀무가설이 옳다면, 표본분포에서 무작위로 뽑은 값들은 표본분포의 중앙값(상관계수가 0)에 근접한 값일 확률이 높을 겁니다. 그리고, 중앙값에서 멀리 떨어진 값일 수록 뽑일 확률은 작아집니다. 따라서 하나의 표본에서 얻은 표본상관계수 값이 중앙에서 어느정도 멀리 떨어진 값이 아니라면 귀무가설을 기각할 수 없게 됩니다.반대로 0에서 멀리 떨어진 값(확률적으로 발생가능성이 매우 낮은 값)이라면 귀무가설을 기각할 수 있게 됩니다. 왜냐하면 해당 표본상관계수 값이 귀무가설이 옳다는 가정 하에 설정한 표본분포에서 무작위로 뽑아 나온 값이라고 보기에는 확률적으로 가 가능성이 매우 낮기 때문입니다.그렇다면, 표준화한 검증통계량이 가지는 t-분포에서 얼마나 떨어진 값인 경우에 귀무가설을 기각할 지 판단할 기준이 필요합니다. 이 기준치를 기각영역의 경계값이라 하고, 표본상에서 나온 값으로 받아들일 수 없는 기준확률을 유의수준(α)이라 합니다. 위의 확률분포에서 우리가 얻은 검증통계치가 나올 확률이 유의수준보다 작다면 우리는 귀무가설을 기각할 수 있습니다.p-value의 중요성과 해석귀무가설을 기각할 지 여부를 판단하는 방법 중 유의확률(p-value)를 활용하는 방법도 있습니다. 가장 널리 쓰이는 방법이고, 많은 분석 라이브러리에서 분석결과에 포함되는 값입니다.유의확률이란 귀무가설이 옳다는 가정하에 얻은 표본분포에서 이 분포로 부터 얻은 표본통계치보다 같거나 더 극단적인 값이 나올 확률을 이야기 합니다. 다시 이야기하면, 표준화된 표본분포량의 중앙값에서 가능한 멀리 떨어진 값이 나오는 확률입니다. 이 확률이 유의수준 보다 작다면 귀무가설을 기각할 수 있는 근거를 얻고, 대립가설을 채택하게 됩니다. (양측검정과 단측검정의 차이가 있지만, 이 글에서는 다루지 않습니다.)마무리가설검증에서의 대립가설과 귀무가설이 무엇인지 살펴보았습니다. 또한, 어떤 논리에 의해 귀무가설을 기각하고 대립가설을 채택하는 전반적인 가설검증의 논리를 정리해 보았습니다.

데이터 사이언스데이터데이터분석데이터사이언스데이터사이언티스트인공지능데이터시각화데이터수집데이터통계

모두의연구소

AI학교 아이펠 : 설립부터 운영까지의 비하인드 스토리 [아이펠 스토리 #01]

AI 부트캠프들의 효시 <딥러닝 컬리지> (2017)AI 스타트업들을 발굴 육성하고 지원하는 서울시 AI 양재허브가 2017년 개관했습니다. 이때 모두의연구소는 카이스트와 함께 공동운영사로 선정되었어요. 서울에서도 약간 외진 곳에 있는 양재허브를 많은 AI 개발자들이 방문하는 곳으로 만들자는 목표로 다양한 세미나와 네트워크 모임들을 운영했습니다. 그중에서 가장 핵심이 되었던 것이 AI 인재양성을 위해 ‘딥러닝 컬리지 Deep Learning College, DLC‘라는 1년짜리 교육 프로그램을 만든 것인데요. 2017년 딥러닝 컬리지 1기를 시작으로 2019년 4기(이때는 규모를 확장하면서 ‘AI 컬리지’로 이름이 변경됨)까지 운영하면서 인공지능이라는 것이 꼭 대학교나 대학원에서만 배울 수 있는 게 아니라는 것을 입증했습니다.여기에는 아트센터 나비, 삼성SDS, 왓챠, 네오사피엔스, SI Analytics, 펄스나인 등 다양한 협력 기업들이 공동 프로젝트에 참여하는 등 큰 관심을 받았습니다. 그림 1. 모두의연구소 딥러닝 컬리지와 공동프로젝트를 진행한 기업들 특히 딥러닝컬리지 졸업생들은 ‘뉴립스 NeurIPS‘ 학회 발표 2건, ‘한국전자공학회’ 우수논문상 2건, ‘ICGHIT’ 국제학회 발표, 단독 전시회 개최 등 대외적으로 인정받는 좋은 결과를 보여주었어요. 그 노력에 보답하듯이 졸업생들은 현재 구글, 카카오브레인, 업스테이지, SK C&C 등 많은 기업에서 활발하게 활동하고 있습니다. 그림 2. 뉴립스 2019 발표 당시 영상 1. ‘WHAT-IF : Can AI Be Creative?’ 딥러닝 컬리지 전시회 그러나 정말 안타깝게도 이런 제대로 된 AI 교육을 받을 수 있는 곳은 서울밖에 없었어요. 아래 그림은 2021년 기준 전국의 AI 교육 프로그램 분포를 보여주고 있습니다. 인구의 20%만이 서울에 사는데, AI 교육 프로그램의 80%가 서울에 몰려있죠. 2020년 아이펠 설립 당시에는 정말 지방의 청년들은 AI를 배우고 싶어도 배울 곳 자체가 없었습니다. 그림 3. 서울에만 몰려있는 AI 교육▶︎ [김승일 칼럼] AI 리터러시 (1) : 서울에만 몰려있는 인공지능 교육  에꼴42, TUMO 방문 : 웃음이 끊이지 않는 교실을 경험하다 (2019)2019년, 저는 두 곳의 혁신학교를 경험하게 됩니다. 하나는 프랑스에 위치한 IT 교육기관 ‘에꼴42 Ecole 42‘와 아르메니아에서 시작된 청소년을 위한 STEAM 교육기관 ‘투모 TUMO‘인데요. 이 곳을 방문하면서 저의 교육에 대한 생각과 가치관이 많이 정립되었습니다. 특히 투모는 저에게 깊은 감명을 주어서 이후 제가 설립한 AI 학교 ‘아이펠’에 많은 영향을 미치게 되었습니다. 그림 4. 아르메니아에 위치한 IT 교육기관 : 투모 에꼴42와 투모, 두 기관은 공통점이 상당히 많습니다. 먼저 두 기관은 모두 비영리 재단이 운영합니다. 또한 두 기관 모두 ‘강사 없이’ 운영됩니다. 비영리 재단의 특성상 운영비가 넉넉하지 못함에도 최대한 많은 학생에게 교육의 기회를 주어야 하기에 강사 없는 학교를 생각한 것이 아닐까 싶습니다. 글로벌하게 진출하고 있어서 에꼴42는 2023년 현재 전세계 43개 캠퍼스를, 투모는 13개 캠퍼스로 확장되어 운영 중입니다. 놀라운 성과가 아닐 수 없지요.비영리 재단의 특성상 운영비가 넉넉하지 못할 것입니다. 유명한 교수님을 모셔와서 라이브 강의를 통해 수천~수만명의 학생들을 가르치는 것은 비용 효율적이지 못합니다. 그래서 두 기관 모두 강사가 없는 대신 매우 훌륭한 자체 교육 콘텐츠와 학습 관리 시스템 Learning Management System 및 교육 운영 시스템을 가지고 있었습니다.무엇보다 가장 놀랐던 점은 두 학교 모두 학생들이 교실에서 끊임없이 웃으면서 활동을 한다는 것인데요. 이렇게 밝은 표정의 학생들을 본 적이 없었습니다. 조용한 교실이 아닌 시끄러운 교실. 그들은 서로 대화하고 질문하고 함께 무언가를 만드는 것을 즐기는 표정이었습니다.  AI 혁신학교 아이펠 런칭 (2020)제가 에꼴42와 투모를 경험하고 돌아온 후, “기존의 주입식 교육을 탈피한, 시끄러운 교실을 지닌 AI 학교 설립”으로 회사의 방향성을 정립하고 총력을 기울이게 됩니다. 2019년 8월부터 2020년 7월까지 약 1년 간 전문 콘텐츠, 학습 관리 시스템, 교육 운영 시스템을 설계하고 구현하며 매일 밤새 만들게 되는데요.1) 아이펠 전문 콘텐츠에꼴42와 투모는 많은 공통점이 있지만, 서로 다른 점도 있습니다. 그 중 하나가 ‘콘텐츠’인데요. 에꼴42는 학생들에게 문제를 제시해 주는 ‘과제 제시형’ 콘텐츠를 가지고 있습니다. 자유도가 굉장히 높으며, 학교를 다니는 동안 계속 제공되는 과제를 풀면서 실력을 향상시키기 때문에 방탈출 게임같은 재미와 도전의식을 심어줄 수 있습니다.투모는 콘텐츠 팀이 있지만, 모든 콘텐츠를 직접 만들지 않습니다. 저는 이것을 ‘큐레이티드 커리큘럼 Curated Curriculum‘이라고 부르는데요. 웹, 유튜브 등 기존에 있는 정보를 잘 큐레이션해서 보여주는 것만으로도 많은 부분 해결됩니다. 그림 5. 투모의 ‘큐레이티드 커리큘럼’ 방식의 교재 저는 우리의 교육이 주입식/사교육에 의존해서 자라왔기 때문에 아직 우리가 에꼴42 정도의 자유도 높은 콘텐츠를 받아들일 준비가 되어 있지 않다고 판단했습니다. 모두의연구소 아이펠 콘텐츠 팀은 투모처럼 큐레이션과 직접 만드는 것을 적절히 혼합하여 최신의 AI 기술을 전달하려고 노력합니다. 대신 에꼴42의 ‘게이미피케이션 Gamification‘을 가미하기 위해 각 노드*마다 해당 노드에서 학습한 내용을 적절히 응용하여 결과를 만들어 내는 미니 프로젝트를 두도록 설계하였습니다.*노드(Node): 아이펠 내 학습의 최소 단위 그림 6. 아이펠 미니 프로젝트 예 : AI로 애니메이션 프사 만들기 2) Active learning(강사가 아닌 퍼실리테이션)아이펠 설립 당시 지방에는 AI 교육을 진행하는 교육 기관이 없었어요. AI를 가르쳐 줄 개발자/강사가 없기 때문이었죠. 지역의 청년들에게도 AI를 배울 수 있는 기회를 주기 위해 모두의연구소 아이펠은 강사가 없는 교육 시스템을 개발하는 데 도전하게 됩니다. 강사가 주입식으로 지식을 알려주는 형태는 단기간에 빠르게 배울 수 있는 반면 기억에 많이 남지는 않습니다. 들을 때는 아는 것 같지만, 나중에 보면 아는 게 별로 없죠. 물론 이걸 방지하기 위해 시험도 보지만, 그것도 시험을 볼 때 뿐.. 시험이 끝나고 한 달이 지나면 대부분 잊어버립니다. 이런 경험 다들 있으시죠? 그림 7. 러닝 피라미드(Learning pyramid) : 강의식의 수동적 학습보다 토론과 체험 위주의 액티브 러닝의 학습 효과가 훨씬 더 뛰어남 그래서 아이펠은 처음부터 강사가 아닌 ‘퍼실리테이션 Facilitation‘에 초점을 두고 만들었어요. 질문을 던져주고 서로 토론하게 만드는, 바로 그것이 퍼실리테이터의 역할입니다.모두의연구소는 사실 아이펠이라는 교육기관 설립 이전부터 연구모임 ‘LAB’과 스터디모임 ‘풀잎스쿨’을 운영하던 커뮤니티 기업이기도 합니다. 커뮤니티는 기본적으로 강사가 아닌 퍼실리테이팅 기반으로 운영되는 곳이고, 그 어떤 기업보다 모두의연구소가 자신있어 하는 부분이기에 적극적으로 설계에 반영이 되었죠. 3) 아이펠 운영비를 어디서 충당할 것인가?모두의연구소는 에꼴42나 투모처럼 어느 재력가가 재단을 세운 곳이 아닌, 영리 기업입니다. 영리 기업임에도 교육 기회의 제공이라는 사회적 가치를 중요시 하는 곳이기에, 학생들에게 직접 고가의 등록금을 받는 것에 큰 망설임이 있었습니다. 그래서 모두의연구소는 정부, 지자체, 기업들이 펀딩을 해 줄 수 있는지 발로 뛰며 찾아보게 되었죠. 그 중 저희의 방향성을 믿고 지지해 준 곳이 바로 ‘고용노동부’였습니다. 요즘 많이들 보이는 고용노동부의 ‘K-디지털 트레이닝 K-Digital Training‘ 사업 이전에 고용노동부에서는 아이펠에 큰 관심을 보이며 지원이 이루어졌고, 이것이 K-디지털 트레이닝 사업까지 연계되어 지금까지 학교를 잘 운영 중에 있습니다.저는 모두의연구소 아이펠이 다른 AI 부트캠프와 가장 큰 차이점은 교육에 대한 ‘진정성’이라고 생각합니다. 대부분의 교육기관들이 ‘K-디지털 트레이닝이라는 정부 펀드가 있는데 우리도 들어가 볼까?’ 라는 접근이라면, 모두의연구소는 그런 정부지원사업이 있기 2년 전부터 준비해서 만든 교육 프로그램이라는 것입니다. 그림 8. 2018년 아이펠 설립 전 수행했던, AI 혁신학교에 대한 기업 및 학생 인터뷰 설문 결과 예 4) 이루지 못한 꿈, 학습의 개인화 : 기존 교육의 파괴수십, 수백명의 학생을 한 교실에서 가르치면 공부를 잘하는 학생을 기준으로 진도를 나가야 할까요? 못하는 학생을 기준으로 진도를 나가야 할까요? 둘 다 좋은 방법이 아닙니다. 공부를 잘하는 사람을 기준으로 가르치면 아직 미처 이해하지 못한 학생은 공부를 포기하게 되구요. 공부를 못하는 사람을 기준으로 가르치면 잘하는 학생은 자기가 알아서 하겠다며 수업을 듣지 않습니다. 이 모든 것이 학습이 개인화되지 않았기 때문입니다.내가 이번에 배워야 할 부분을 빠르게 배웠다면 먼저 다음 ‘노드 Node‘를 배울 수 있고, 아직 이해가 부족하다면 같은 노드라도 두 번 세 번 복습할 수 있게 하는 교육 설계. 이것이 저는 너무 필요한 ‘학습의 개인화’라고 생각해요. 즉, 입학은 같이 했어도 졸업을 모두가 같이 할 필요가 없다는 뜻입니다. 그러나 우리의 모든 교육은 입학과 졸업의 타이밍이 천편일률적으로 정해져 있습니다.또 다른 학습의 개인화의 예는 ‘수업 시간’과 ‘쉬는 시간’입니다. 왜 이게 분리되어야 할까요? 잘 생각해 보면 수업 시간에는 조용하고 쉬는 시간에는 왁자지껄 합니다. 저는 위에서 말씀드렸듯이 교실은 시끄러워야 한다고 생각해요. 왜 배움이 있는 수업 시간이 아닌 오히려 쉬는 시간에 시끄러워질까요? 저는 모두가 같은 시간에 배우고 같은 시간에 쉬는 시스템에 의문을 제기하고 싶습니다. 왜 모두가 같이 배우고 같이 쉬어야 할까요? 알아서 배우고 쉼이 필요할 때는 알아서 쉬면 안될까요? 쉬는 시간 같은 수업 시간, 수업 시간 같은 쉬는 시간이 시끄럽고 질문 많은 교실의 원동력이 되지는 않을까요?강사 없이 퍼실리테이션에 의존한 꿈의 AI 학교 아이펠을 적극 지원해준 고용노동부에 정말 큰 감사를 드리는 한편, 아무래도 외부 펀딩에 의존하다보니 교육 설계에 제약이 생길 수 밖에 없는데요. 아직은 AI 학교 아이펠이 이 정도의 학습의 개인화를 제공해주고 있지는 못합니다. 하지만 저는 학습의 개인화 부분에서 조금 더 교육을 파괴해 보고 싶다는 욕심이 있습니다.  아이펠, 퀘스트 시스템으로 더욱 강력해지다 (2023)2019년 시작된 코로나 바이러스로 인한 피해가 장기화되면서 우리 삶에서의 행동 자체가 변하게 됩니다. 오프라인이 아닌 온라인에서 만나는 것이 일상화 되고, 더 이상 오프라인으로 사람들이 나오기를 꺼려하게 되죠. 아이펠 역시 그에 맞추어 2022년 하반기부터 전국 8개의 오프라인 캠퍼스를 전면 온라인화 합니다.일반적으로 온라인에서 교육이 이루어지면, 집중도가 떨어지고 혼자 고립되어 있는 느낌이 강해지게 됩니다. 기존의 교육 방식을 그대로 고수해서는 적절한 학습효과를 얻을 수 없어요. 그래서 아이펠은 배움에 더 집중할 수 있도록, 함께 하는 친구와 같이 배워나갈 수 있도록 아이펠만의 퀘스트 시스템을 설계・도입하여 더욱 강력해졌습니다. 퀘스트 시스템의 핵심은 혼자 공부하는 것이 아닌, 커뮤니티형 교육이 무엇인지 체험하면서 활동 점수를 받고 실력을 성장시키는 것입니다. 아이펠의 퀘스트 시스템은 저희 PO Product Owner가 직접 소개한 글이 곧이어 공개될 예정입니다. 이제 퀘스트 시스템으로 한 층 더 강력해진 AI 혁신학교 아이펠에 여러분을 초대합니다! 

인공지능AI인공지능AI학교아이펠모두의연구소데이터사이언티스트AI부트캠프부트캠프딥러닝머신러닝

채널톡 아이콘