블로그

윤선미

인프런 수강생은 이런 데이터가 궁금해요!

안녕하세요. 커뮤니티 데이터리안의 윤선미입니다.  오늘도 애정을 가지고 인프런에 대해서 얘기를 해보려고 합니다. 세계관 여기에는 다 인프런과 친하신 분들이니까 굳이 설명할 필요는 없지만, 용어를 정리하는 의미에서 간단하게 인프런의 세계관에 대해서 얘기해볼게요. 이곳에는 두 종류의 사람이 있습니다. 강의를 만들어 업로드 하는 사람: 지식공유자 강의를 수강하는 사람: 현재는 학생 또는 수강생이라고 부릅니다. 데이터리안은 강의를 제작하면서, 종종 다른 지식공유자분들의 강의를 수강하기도 하니까 분류하자면 둘 다에 속합니다. 지식 공유자 입장에서 지식공유자 활동을 하면서 인프런이 제공해주고 있는 데이터 이외에 다른 데이터들을 알고싶다는 생각을 꾸준히 해왔는데요. 예를 들면 이런겁니다. 우리 강의에 어떤 경로로 유입되었을까? 강의를 완강하지 않았다면 이탈 지점은 어디일까? 기초 SQL 강의를 들은 수강생이 중급 SQL 강의도 결제했을까? 글로 정리된 내용은 <인프런 지식 공유자는 이런 데이터가 궁금해요!>에 있습니다. 지식공유자 입장의 데이터가 더 궁금하신 분들은 위에 링크를 클릭해주세요. 수강생의 입장에서 오늘은 수강생의 입장에서 제공받고 있는 여러 데이터들에 대해서 얘기를 해보려고 합니다. 인프런에 수강생이 볼 수 있는 다양한 화면이 있지만, 수강생 학습 대시보드와 강의 소개 페이지를 중심으로 얘기를 해보겠습니다. 아이디에이션은 @S, @북북, @민주, @leebom, 그리고 @선미 가 함께했습니다. ... 더 읽어보기: https://velog.io/@datarian/inflearn-student

데이터 분석인프런데이터분석데이터리안

윤선미

데이터리안 파이썬 기초 강의 오픈 🥳

안녕하세요 수강생 여러분 :)   데이터리안에서 <데이터 분석을 위한 파이썬: 입문부터 꿀팁까지> 라는 이름으로 파이썬 기초 강의를 런칭했습니다! 🥳 그리고 지금 오픈 할인 30%를 하고 있어서 후딱 알려드리려고 이렇게 새소식으로 찾아뵙습니다. (이제 인프런에서 지식공유자가 설정할 수 있는 최대 할인폭은 25%예요. 30% 할인은 강의 오픈이나 특별 행사에만 찾아오는 기회입니다!)   저희가 인프런에 첫 강의를 올린게 2020년 초였는데요. 그때부터 '파이썬 기초 강의는 언제쯤 올라오냐' 메일도 보내주시고 많은 분들이 요청해주셨어요. 파이썬 강의 진짜 내고 싶었는데 이게 워낙 범용 프로그래밍 언어다 보니까 어떻게 가르쳐야 수강생 분들이 더 효율적으로, 필요한 기능들을 쏙쏙 골라서 배울 수 있을까 고민이 많아지더라구요. 그래서 기획을 길게 하게 됐습니다. 이제야 인사를 드립니다... 지금까지는 저희 강의 말고 다른 분들이 쓰신 책이나 강의를 추천했었는데 이제는 당당하게 '파이썬 뭘로 공부하나요?' '데이터리안 강의로 공부하세요!'라고 말할 수 있게 되어서 기쁩니다.   이 강의는 '데이터 분석'을 목적으로 파이썬을 공부하시는 분들에게 딱 맞춰 구성한 강의이구요. 선수지식이 전혀 없는 분들도 쉽게 시작하실 수 있도록 설치 등 과정을 과감하게 생략하고 '프로그래밍 언어' 학습에 집중한 강의입니다. 강의 당 시간은 대부분 6분 ~ 15분 내외로 가볍게 들으실 수 있도록 했습니다.   코스의 마지막에는 테이블 데이터를 다루는 라이브러리인 '판다스'나, 가장 유명하고 많이 쓰이는 머신러닝 패키지 '사이킷런'을 맛보실 수 있도록 했습니다. 손으로 쓴 숫자 이미지를 자동으로 분류하는 분류 모델을 30분 튜토리얼안에 작성하실 수 있게 될거예요. 연습문제도 알차게 준비했습니다. 이론 강의 듣고 - 연습문제를 바로 풀어보면서 재밌게 수업내용 복습하고 응용해보실 수 있을거예요.   앞으로도 유익하고, '더 성장하고 싶다!', '더 잘하고 싶다!' 는 생각이 들게 하는 강의 많이 만들어볼게요!   데이터리안 파이썬 팀 드림

데이터 사이언스파이썬데이터분석파이썬입문데이터사이언스

윤선미

데이터 분석가 로드맵 🥳 & 데이터리안 강의 실제 학습 시간 공개

✨ 데이터리안에서 분석가 로드맵이 나왔습니다 ✨ 그리고 인프런 대시보드가 리뉴얼 되었어요. 이제 학생들이 이 강의를 학습하는데 실제로 얼마나 시간을 소요하고 있는지 볼 수 있게 되었습니다! (예시. 기초 SQL강의의 런타임은 1시간 36분, 실질 수강 기간은 3일!) 로드맵을 소개하면서, 데이터리안 강의를 학습하는데 우리 수강생 분들이 어떻게 시간을 쓰고 계시는지 같이 얘기해보겠습니다.    1. SQL 실무 활용 트랙 기획자, 마케터 등 SQL을 실무에서 활용해야 하는 모든 직군이 공통으로 들을 수 있는 구성입니다. 간단한 데이터를 추출하거나, 기존 쿼리를 이해하는 등 라이트하게 활용할 사용자들을 위한 트랙입니다. 강의의 순수 플레이 타임은 기초 SQL 1시간 36분, 중급 SQL 4시간 19분으로 5시간 55분이고, 중급 SQL 문제풀이 강의 2시간 12분을 포함해서 학습하신다면 8시간 7분입니다. 실제 학습에 소요되는 시간은 어느정도 될까요? 강의를 90% 이상 수강한 학생들이 '완강 수강생'이라고 생각하고, 이 수강생들의 상위 50% 평균을 계산한 값은 다음과 같습니다. 기초 SQL은 3일, 중급 SQL은 9일, 중급 SQL 문제풀이는 4일을 소요하여 강의를 완강합니다. 하루에 약 30분 정도 투자해서 공부를 하고 계시구요. 데이터리안의 모든 코스의 강의는 평균 10분 내외로 촬영하고 있으니까 하루에 약 3개 강의 정도 들으시는 것으로 예상해볼 수 있겠네요 😊 그런데 수강평을 보면 아시겠지만, 기초 SQL의 경우 런타임이 약 1시간 30분 정도라서 하루만에 몰아서 끝내시는 분들도 많아요. 이 강의를 활용해서 학생들을 가르쳐본 경험으로는 약 3시간, 길면 5시간 정도 집중하는 시간을 내면 기초 SQL 강의를 완강하실 수 있습니다. 본인 스타일에 맞게 하루에 몰아서 빡공! 또는 매일 30분씩 나누어서 공부하면 좋겠죠. 👉 데이터리안 수강평 모아보기    2. 데이터 분석가 트랙 현업에서 데이터 분석가로 일하고 계시는 분 또는 데이터 분석가로 입사하기 위해 코딩 테스트를 준비하는 분들을 위한 구성입니다. SQL로 데이터를 자유자재로 핸들링하고 분석에 활용할 분들을 위해 고급 SQL 강의가 들어가있고, 분석을 위한 추가 스킬로 파이썬이라는 프로그래밍 언어를 선택하신 분들을 위한 트랙입니다. 강의의 순수 플레이 타임은 SQL 실무 활용 트랙에 더해, 고급 SQL 5시간 16분 + 파이썬 입문 8시간 55분 + 판다스 6시간 30분으로 총 20시간 41분이 추가됩니다. 여기에 고급 SQL 문제풀이까지 학습하신다면 2시간 12분이 더해져 총 플레이타임은 22시간 53분이 됩니다. 실제로 수강하는데 걸리는 기간을 보면 고급 SQL은 16일, 고급 SQL 문제풀이는 4일, 파이썬 입문편은 4일, 판다스는 22일이 걸리고, 하루에 평균적으로 20분~30분 정도 투자하고 있어요. 파이썬 입문 강의는 특이하게 하루 평균 시청 시간이 2시간 30분이나 되는데요. 강의 러닝타임에 비해서 완강까지 걸리는 기간도 매우 짧구요. 아직 런칭한지 얼마 안 된 강의라서 그런 것인지... 정말 파이썬 입문 강의에는 🔥열혈 수강생🔥들만 있는 것인지 데이터 추이를 지켜보고 있습니다. 데잇걸즈 4기, 5기분들도 데이터리안의 SQL 강의를 수강하셨었는데요. 적절한 코칭이 함께 들어갔을 때 또는 스스로 꾸준히 학습할 때 기초 SQL부터 고급 SQL까지 학습하는데 걸리는 시간은 약 4주에서 8주정도 된다고 생각하시면 좋을 것 같아요. 개인차가 있지만 아무리 늦어도 8주안에 SQL 코딩테스트를 통과할 수 있는 정도의 실력은 길러진다고 보고 있습니다. 실제로 네이버, 리디 등의 데이터 분석가 코딩테스트에 합격하신 분들이 연락을 많이 주시구요. 데잇걸즈 같은 1년에 한 번 있는 프로그램이 아니더라도 함께 모여서 으쌰으쌰하며 공부할 수 있는 환경이 만들어지면 좋을 것 같다는 취지로 4주에서 8주짜리 SQL 캠프도 기획하고 있으니까 기대 많이 해주세요. 👉 데잇걸즈 4기 수강생 분들의 기술 블로그 보러가기 "SQL? 누구냐 너!!"    3. 데이터 사이언티스트 트랙 이 트랙은 파이썬이라는 프로그래밍 언어와 머신러닝🤖을 공부하고 싶은 분들을 위해 구성했습니다. 강의 런타임과 실질 수강 기간은 아래와 같아요. 데이터 분석을 위한 파이썬: 러닝타임 8시간 55분 / 4일 / 매일 2시간 33분 학습 데이터 분석을 위한 판다스: 러닝타임 6시간 30분 / 22일 / 매일 21분 학습 추천 시스템 입문편: 러닝타임 7시간 49분 / 12일 / 매일 41분 학습 총 러닝타임은 23시간 14분, 학습 기간은 38일이네요. 앞에서도 말했지만 파이썬 입문 강의의 일일 학습 시간, 학습 완료까지 걸리는 기간 데이터가 참 특이합니다 🤔 '데이터 분석을 위한 판다스' 강의의 런타임이 6시간 30분으로 훨씬 짧은데도 실질 수강 기간은 훨씬 길죠. 판다스 강의에 분석 프로젝트가 많아서일까요. 데이터를 눈여겨 봐야겠습니다. 👉 데이터 분석을 위한 파이썬: 입문부터 꿀팁까지 보러가기   4. 수강 완료 기간 데이터 데이터리안 강의들의 런타임, 실질 수강 기간, 1일 평균 시청 기간 데이터를 정리해보면 아래와 같습니다. 이 데이터는 고정된 데이터가 아니라 여러분들의 강의 수강 패턴대로 계속 업데이트 될거예요. 강의 완료기간은 더 짧아지도록, 1일 평균 시청 시간은 더 길어지도록, 그리고 완강하는 사람들의 비율이 더 늘어나도록 저희도 노력하겠습니다. 👉 데이터리안 전체 강의 보러가기👉 데이터리안 서비스 페이지 바로가기   (2021년 11월 5일 기준) 강의명 러닝타임 완료기간 1일 평균 시청 시간 로드맵 [백문이불여일타] 데이터 분석을 위한 기초 SQL 1시간 36분 3일 32분 SQL 실무 활용, 데이터 분석가 [백문이불여일타] 데이터 분석을 위한 중급 SQL 4시간 19분 9일 29분 SQL 실무 활용, 데이터 분석가 [백문이불여일타] 데이터 분석을 위한 중급 SQL 문제풀이 2시간 12분 4일 33분 SQL 실무 활용, 데이터 분석가 [백문이불여일타] 데이터 분석을 위한 고급 SQL 5시간 16분 16일 20분 데이터 분석가 [백문이불여일타] 데이터 분석을 위한 고급 SQL 문제풀이 2시간 55분 4일 44분 데이터 분석가 데이터 분석을 위한 파이썬: 입문부터 꿀팁까지 8시간 55분 4일 2시간 33분 데이터 분석가, 데이터 사이언티스트 데이터 분석을 위한 판다스: 기초부터 블로그 GA 데이터 분석까지 7시간 47분 22일 21분 데이터 분석가, 데이터 사이언티스트 [개념부터 실습까지] 추천 시스템 입문편 7시간 47분 12일 41분 데이터 사이언티스트  

데이터 사이언스데이터분석로드맵데이터리안SQL파이썬데이터사이언스분석가머신러닝추천시스템

윤선미

"SQL 캠프 입문반" 1월 참가자 모집

안녕하세요 수강생 여러분! 데이터리안 강사 윤선미입니다. 총 수강생이 6,000명을 넘었습니다 🥳 저희 강의를 사랑해주셔서 감사합니다. 그동안 쌓아온 SQL 온오프라인 강의 경험을 바탕으로 4주과정 부트캠프를 오픈했습니다.   캠프에서는 [백문이불여일타] 데이터 분석을 위한 기초~중급 SQL 과정을 함께 들으며 부트캠프만을 위해 제작한 새로운 연습문제를 풀어봅니다. 온라인 강의 수강과 매주 2시간의 메타버스 라이브 세션을 병행하면서 4주 뒤에는 자신감있게 SQL 문을 작성하실 수 있게 될거예요.   혼자서 완강이 힘들어 미뤄뒀던 분 같이 공부하는 동료를 만들고 싶은 분 바로바로 질의응답을 하면서 학습하고 싶은 분 진도에 맞는 연습문제를 더 풀어보고 싶은 분   라이브 세션은 제가 직접 강의하고, 조교님들까지 모두 분석가 경력이 있는 분들로 모셨습니다. SQL 입문 과정을 4주 안에 밀도있게 배우고, 익힐 수 있도록 도와드릴게요. 정규 과정 중 첫 날을 미리 체험해보고 결정하실 수 있도록 원데이 클래스도 운영합니다. 자세한 수강료와 혜택, 과정 설명은 아래 페이지를 참고해주세요.   부트캠프 알아보러 가기👉 https://datarian.notion.site/SQL-e0e38cb61f3045f18cb4f0a83e7268c2 원데이클래스 신청하러 바로가기👉 https://forms.gle/MtwqCZQz6juyNcRr5   **[백문이불여일타] 데이터 분석을 위한 기초, 중급 SQL 기존 수강생분들은 꼭 읽어주세요** 데이터리안의 SQL 강의 기존 수강생 분들은 온라인 강의 가격을 제외한 가격에 결제하실 수 있습니다. 신청 폼에서 ‘어느 채널을 통해 캠프를 알게 되셨나요?’ 질문을 찾아주세요. ‘[백문이불여일타] 데이터 분석을 위한 SQL 기존 수강생’를 선택해주세요. 수강을 시작한지 3개월이 지나 기한이 만료된 분들은 온라인 강의를 재등록해드립니다 💝   감사합니다 :D

데이터 사이언스데이터분석SQL부트캠프데이터리안1월열공

데이터리차드 datarichard

데이터분석가로성장하기3

3. 비즈니스를 대표하는 지표들을 알아보자지표는 비즈니스가 얼마나 잘하고 있는 지, 또는 얼마나 못하고 있는지 전체적인 방향을 알려주는 역할을 합니다.지표가 아직 무엇인지 모르는 분들을 위해, 대표적인 예시를 하나 들어볼까요?저는 게임을 좋아하기 때문에한국의 대표적인 민속놀이인 롤(LOL)을 통해 설명해보도록 할게요.KDA는 플레이어가 얼마나 게임을 잘하는 지 파악할 수 있는 대표적인 지표입니다. 게임에서 플레이어가 얼마나 중요한 역할을 했는지를 알려주죠.KDA = (Kill (킬한 횟수) + Assistance (어시스트한 횟수)) / Death (죽은 횟수)KDA를 통해, 우리는 지표에는 3가지 특징이 있다는 걸 알 수 있어요.1. 지표는 여러가지 요소를 사용하여 하나의 수치로 표현할수 있어요.2. 과거의 상태 또는 다른 상대와 지표를 통해 비교가 가능해요.3. 지표는 고정되어 있지 않고, 다양한 방법들을 통해 향상시킬수 있어요.비즈니스도 하나의 게임이라고 생각한다면,KDA와 같은 지표를 통해 얼마나 기업이 성장하고 있는지,또 어떻게 성장해야할지를 알수 있는 것이죠.대표적인 비즈니스 지표에는MAU/WAU/DAU - 월별, 주별, 일별 활동 유저의 수CVR - 하나의 상태에서 다른 상태로 전환된 유저의 비율YOY - 작년의 지금과 올해의 지금를 비교한 변화율LTV - 한명의 유저가 들어온 시점부터 이탈한 시점까지 발생시킨 총 매출액등이 있습니다.이런 지표들을 개별로 사용하기도 하지만 지표들을 합쳐서 새로운 지표를 만들수도 있어요.다음 시간에는 지표를 사용한 데이터 분석의 예시를 통해 지표의 장점과 단점에 대해 설명해보도록 하겠습니다.기대해주세요!

데이터 사이언스데이터분석데이터사이언스

윤선미

4주 SQL 캠프 실전반 소개

월간 데이터리안 1월 웨비나 "비전공자 4명, 어떻게 데이터 분석가 됐을까?" 에 도착한 질문들을 보니까 데이터 분석 교육으로 어떤 공부를 해야하는지, 포트폴리오는 어떻게 만들어야 하는지 고민이신 분들이 많더라구요. 100개가 넘는 질문 중에 거의 대부분이 이 고민이었던 것 같아요. 웨비나 질문 몇 개를 뽑아보겠습니다 비전공자가 데이터분석 직군이 되려면 전공자를 뛰어넘는 관련 경험이라던지 포트폴리오가 필요하다고생각합니다. 이런 경험이나 포트폴리오준비는 어떻게 하셨나요? 또 독학만으로 준비하셨나요 국비강의를 들으셨나요? 데이터분석가로 취업하기 위해 꼭 갖추어야 하는것은 무엇이며, 비전공자가 특히 고려해야 하는것은 무엇일까요? 데이터 분석가는 분석 포지션을 모두 수행하는 플레이어인가요? (데이터 분석가+비즈니스 분석가+프로덕트 분석가) 채용공고를 보면 데이터 분석가 업무를 모델링으로 쓴 곳도 있고, Funnel/AARRR 등 프로덕트 분석으로 쓴 곳도 있어서 기본적으로 역량을 어디서부터 어디까지 쌓아둬야 하는지 궁금합니다. 데이터분석 직무에 필요하다고 생각하시는 핵심역량 또는 채용시 중요하게 보시는 부분이 있다면 어떤것일지 궁금합니다.   사실 질문들을 읽으면서 우리끼리 얘기했어요. "이거 우리 캠프 들으면 다 할 수 있는데. 너무 캠프 말만 하면 쟤네 광고하나 할테고 이거 참 어렵네요..."   데이터리안 SQL 과정은 단순히 SQL이라는 언어를 주입식 교육하는 과정이 아니라 데이터 분석가로 취업하기 위해 코딩테스트를 보려면 어떤 수준까지 언어를 알고 훈련해야 하는지, 실무에서 우리가 자주 썼던 문법은 뭔지 복기하며 기획한 과정이기 때문에 사실 이 질문들에 대한 저희의 최선의 답변은 "저희를 믿고 캠프와 4주간 또는 8주간 함께해주세요." 입니다. 이 과정을 기획한 분석가가 4명인데요. 이 4명이 지금까지 코딩 테스트를 본 회사를 세보면 몇 개일까요? 스무 군데가 넘습니다. 그 중에 실제로 근무한 회사는 여섯 곳이구요. 다양한 SQL 코딩 테스트 유형에 대해서, 분석가의 업무에 대해서 이보다 더 다양한 이야기를 해드릴 수 있는 곳은 없습니다. 실전반은 SQL의 문법을 어느 정도 아는 분들(그룹별로 집계하기, 조인까지는 할 수 있다!)을 대상으로 진행합니다. 코딩을 한 번도 해 본적이 없다 하시는 분들은 입문반부터 시작하시면 될 것 같구요. 실전반은 기본적인 문법을 아는 분들에게 좀 더 다양한 SQL의 함수와 기능에 대해서 얘기하고, 좀 더 고난이도의 문제를 함께 풀어보며, 리텐션 분석 퍼널분석 등 분석 프레임워크를 알려드리기 위한 과정입니다. 현업과 비슷한 분석 경험을 해보고 싶거나, 나의 SQL 또는 분석 실력을 보여줄 수 있는 포트폴리오를 만들고 싶은 분들에게도 유용한 과정이 될거예요.   분석 프레임워크가 뭐지? 요즘 분석가 채용공고들을 보면 AARRR, Cohort, Funnel 같은 단어가 많이 보이는데요. 처음 보시는 분들은 '저게 뭐야...' 하실 수 있을 것 같아요. 데이터 분석 하는데 많이 사용하는 용언데 알고보면 별게 아닙니다. 토스 데이터 분석가 채용공고 (https://www.wanted.co.kr/wd/52315) AARRR은 그로스해킹(Growth Hacking) 용어로 서비스를 성장시키기 위해서 어떤 분석을 해야하고, 어떤 지표들을 봐야하는지 정리된 분석 프레임워크입니다.   ... 데이터리안 velog에서 더보기

데이터 사이언스데이터분석데이터리안SQL

마소캠퍼스

[Gen AI 인사이트] 업무 혁신의 열쇠, 생성형 AI로 스마트하게 일하기!

똑똑하게 업무를 처리하는 방법, 마소캠퍼스가 알려드릴게요!최신 AI 기술로 더욱 효율적이고 스마트하게 일해보세요.생성형 AI를 활용해 더 스마트하게 일할 수 있는 방법을 알아보세요! 복잡한 작업을 단순화하고, 빠르게 결과를 얻을 수 있답니다. AI가 업무 효율을 어떻게 높여줄지, 지금 시작해 보세요~생성형 AI는 텍스트나 이미지, 코드 등을 자동으로 생성해주는 인공지능 기술이에요. 데이터만 입력하면 다양한 형태의 결과물을 빠르게 만들어줍니다. 여러분의 아이디어가 곧바로 현실로!생성형 AI는 고객 서비스, 콘텐츠 제작, 데이터 분석 등에서 특히 효과가 뛰어나요. 반복적인 작업을 줄이고, 정확성을 높여주어 혁신을 이끌어내고 있죠!AI에게 원하는 결과를 얻으려면 정확하고 명확한 프롬프트 작성이 필수예요. 구체적인 지시와 목표를 설정해 원하는 결과를 얻을 수 있도록 해보세요.생성형 AI를 이용해 블로그 글이나 SNS 콘텐츠를 쉽게 작성할 수 있어요. 최신 트렌드를 반영한 예시를 통해 효율적으로 콘텐츠를 만들 수 있답니다!데이터 분석도 AI가 도와줄 수 있어요! 복잡한 데이터 해석과 분석을 자동화해 중요한 추세를 빠르게 파악할 수 있답니다.복잡한 작업을 여러 단계로 나누어 AI가 처리하면 효율이 크게 향상돼요. 세분화된 모듈로 더욱 정밀하게 업무를 완성해 보세요!AI와 함께라면 시간 절약, 비용 절감, 효율성 증가의 3박자를 모두 갖출 수 있어요! 더 중요한 일에 집중하며 창의적인 작업에 시간을 할애할 수 있답니다.AI의 자동화와 창의력 지원 기능 덕분에 단순 작업에서 벗어나 중요한 업무에 더 몰입할 수 있어요. 다만, 효과적인 사용을 위해 기본적인 학습 곡선을 이해하는 것도 중요하답니다:D마소캠퍼스와 함께 AI를 활용해 업무 혁신을 이뤄보세요! 효율적이고 스마트한 일의 방식을 통해 성장할 수 있도록 도와드릴게요. 📌관련 강의 <ChatGPT 전략적 활용법 - 리더를 위한 생성형 AI 비즈니스 전략 과정>탁월한 비즈니스 성과를 위한 최상의 선택 불필요한 시간 낭비는 이제 그만! 

AI · ChatGPT 활용ai챗gpt스마트업무혁신비즈니스리더십생성ai프롬프트콘텐츠데이터분석

모두의연구소

데이터 사이언스 통계 기초(1) : 가설검증 이해하기

통계를 공부할 때 추론통계에서 제일 먼저 만나는 큰 산이 가설검증에 대한 이해입니다. 용어도 낯설고 매우 헷갈립니다. 가설검증의 절차에 대한 설명은 훌륭하게 정리된 정보를 많이 찾을 수 있습니다. 하지만 왜 그리고, 어떠한 관점으로 가설검증을 이해해야 하는가에 대한 글은 부족해 보여, 통계와 함께 데이터 사이언스 공부를 시작하시는 분들에게 도움이 되고자 가설검증의 논리에 대해 정리해 봅니다.이 글은 연세대학교 경영학과 양혁승 교수님의 저서인 <비전공자를 위한 통계방법론>을 참고하여 정리했음을 알립니다. (강추합니다.)연구 가설의 설정과 검증데이터를 이용한 실증연구의 구성은 이론과 방법론으로 나뉩니다. 이론 부분은 검증하고자 하는 가설(Hypothesis)을 제시하고 방법론 부분은 검증기법을 통해 합당한 가설인지 판정하는 작업을 합니다.진행하기 전에 확인해야 할 점이 있습니다. 가설이라 함은 이론에 근거하여 모집단에서 성립할 것이라 주장하는 내용이고, 이 가설이 합당한지를 판단하는 가설검증은 표본데이터를 활용하여 이루어진다는 점입니다. 이렇게 표본된 샘플을 토대로 가설을 이용해 모집단을 추정하는 방법을 통계적 추정(Statistical inference)이라 합니다.대립가설과 귀무가설하나의 가설을 예로 들어봅니다,가설 : 학습시간은 학업성취도와 유의한 관계를 가질 것이다.이 가설의 모집단은 대한민국의 대학생이라 가정해 봅니다. 변수는 학습시간과, 학업성취도가 될 것이고, 이 가설에서 관심을 가지게 되는 모수는 두 변수의 연관성을 나타내는 상관계수가 됩니다. 여기서 검증하기 원하는 바는 두 변수가 유의미한 관계 존재할 것이라는 주장의 진위 여부가 됩니다. 참고로 상관계수란 서로 다른 변수의 연관도를 표현하는 지표로 0에 가까울 수록 연관관계가 없다고 판단하게 됩니다.위와 같이 주장하고자 하는 바를 대립가설로 설정하고, 대립가설의 여집합을 귀무가설로 설정합니다. 위의 가설을 대립가설과 귀무가설로 정리해 보면 아래와 같습니다. (수식과 기호는 가능한 피해 봅니다.)대립가설 : 학습시간과 학업성취도 사이의 상관계수는 0이 아닐 것이다.귀무가설 : 학습시간과 학업성취도 사이의 상관계수는 0이다.가설검증에서 귀무가설의 역할귀무가설은 가설검증 과정에서 기각하려는 대상입니다. 대립가설의 여집합인 귀무가설을 기각함으로써 주장하고자 하는 대립가설이 옳다는 결론에 도달하려는 것입니다. 높은 확신을 가지고 귀무가설이 옳지 않다는 주장을 할 수 있다면, 같은 수준으로 대립가설이 옳다고 주장할 수 있습니다. 또한 귀무가설이 옳지 않다는 주장의 근거가 없다면, 대립가설이 옳다는 주장을 할 수 없습니다. 결국 본인의 가설(대립가설)이 맞다는 것을 입증하기 위해서 반대되는 가설(귀무가설)을 세우고 이것이 잘못되었다는 근거를 찾는 것이 가설검증의 논법입니다.가설검증에서 통계적 접근위의 검증을 간편하게 하기 위해 표본통계량을 표준화합니다. 표본통계량으로 부터 표준화 된 것을 검증통계량이라 합니다. 대부분의 이론적인 공식 속에는 모집단의 통계량이 변수로 포함되어 있습니다. 하지만, 우리는 이 모집단의 실제 통계량을 알 수 있는 방법이 없습니다. 그래서 이 모집단의 통계량 대신에 샘플링해서 얻은 표본통계치를 대신 대입하여 계산하게 됩니다. 이렇게 구한 통계치는 이론적인 모집단의 통계치와 같을 수 없으며 일정한 오차(error)가 개입됩니다. 표본의 수가 늘어날 수록 이 오차는 줄어들 것이라 예상할 수 있습니다. 따라서 오차가 개입되어 구해진 검증통계량은 표준정규분포에서 약간 벗어난 t-분포를 따르게 되고, 대부분의 가설검증에서는 이 t-분포를 사용하게 됩니다.유의수준과 기각영역위에서 설정한 귀무가설이 옳다면, 표본분포에서 무작위로 뽑은 값들은 표본분포의 중앙값(상관계수가 0)에 근접한 값일 확률이 높을 겁니다. 그리고, 중앙값에서 멀리 떨어진 값일 수록 뽑일 확률은 작아집니다. 따라서 하나의 표본에서 얻은 표본상관계수 값이 중앙에서 어느정도 멀리 떨어진 값이 아니라면 귀무가설을 기각할 수 없게 됩니다.반대로 0에서 멀리 떨어진 값(확률적으로 발생가능성이 매우 낮은 값)이라면 귀무가설을 기각할 수 있게 됩니다. 왜냐하면 해당 표본상관계수 값이 귀무가설이 옳다는 가정 하에 설정한 표본분포에서 무작위로 뽑아 나온 값이라고 보기에는 확률적으로 가 가능성이 매우 낮기 때문입니다.그렇다면, 표준화한 검증통계량이 가지는 t-분포에서 얼마나 떨어진 값인 경우에 귀무가설을 기각할 지 판단할 기준이 필요합니다. 이 기준치를 기각영역의 경계값이라 하고, 표본상에서 나온 값으로 받아들일 수 없는 기준확률을 유의수준(α)이라 합니다. 위의 확률분포에서 우리가 얻은 검증통계치가 나올 확률이 유의수준보다 작다면 우리는 귀무가설을 기각할 수 있습니다.p-value의 중요성과 해석귀무가설을 기각할 지 여부를 판단하는 방법 중 유의확률(p-value)를 활용하는 방법도 있습니다. 가장 널리 쓰이는 방법이고, 많은 분석 라이브러리에서 분석결과에 포함되는 값입니다.유의확률이란 귀무가설이 옳다는 가정하에 얻은 표본분포에서 이 분포로 부터 얻은 표본통계치보다 같거나 더 극단적인 값이 나올 확률을 이야기 합니다. 다시 이야기하면, 표준화된 표본분포량의 중앙값에서 가능한 멀리 떨어진 값이 나오는 확률입니다. 이 확률이 유의수준 보다 작다면 귀무가설을 기각할 수 있는 근거를 얻고, 대립가설을 채택하게 됩니다. (양측검정과 단측검정의 차이가 있지만, 이 글에서는 다루지 않습니다.)마무리가설검증에서의 대립가설과 귀무가설이 무엇인지 살펴보았습니다. 또한, 어떤 논리에 의해 귀무가설을 기각하고 대립가설을 채택하는 전반적인 가설검증의 논리를 정리해 보았습니다.

데이터 사이언스데이터데이터분석데이터사이언스데이터사이언티스트인공지능데이터시각화데이터수집데이터통계

데이터 과학자로 취업 시 공부했던 자료들 리스트업

안녕하세요 :) 할리입니다.저는 문과생이었고 (고등학교 문과 졸업, 대학교 정치외교학과 전공, 2중전공 경제학과), 현재는 데이터 분석가이자 과학자 입니다. 문과생이 어떻게 데이터 분석가/사이언티스트가 되었을까요?심지어 작년엔 주니어 데이터 과학자를 넘어서 팀장까지 맡아서 시니어로서도 일했습니다. (현재는 퇴사하고 석사과정 중) 저는 문과생이나 이과생이나 데이터 직군에서 일하는데는 전혀 장애물이 없다고 생각합니다. 다만, 실력을 다지기 위한 노력은 필요하다고 생각합니다. 오늘은, 여러분께 그 방법을 소개해보려고 해요. 총 5가지 포인트가 있는데 오늘은 첫번째 포인트만 이야기 해 보겠습니다.  매일 퇴근 후 공부하기1. 공부 습관가장 중요한 것이, 매일 1시간, 주말에 약 3시간 정도 공부하는 것이었어요.저는 퇴근 하고 집에 8시쯤 도착하면 식사 후 8시 반~9시부터 자기 전 11시 쯤까지 공부했답니다.물론 칼처럼 매일 할 필요는 없었어요. 평일에 5일 중 3~4일 정도?, 그리고 주말에 토/일 요일 각각 3~4시간 정도면 충분했어요. 주로 챌린저스라는 앱을 이용해서 공부 1시간 인증을 했어요. (광고X) 벌써 몇년 째 이용하고 있습니다.돈을 걸고 인증을 하기 때문에 강제력이 확실히 부과됩니다. https://chlngers.com/ 대한민국 1등 건강습관 앱, 챌린저스눈 뜨는 것부터 먹는 것까지, 더 건강하게chlngers.com 2. 공부 자료제가 데이터 분석/사이언스를 처음 공부할때 가장 유용했던 자료들 링크입니다.솔직히 너무 많아서.. 기억이 잘 나지 않는 것들도 있어요. 그래도 가장 유용했던 것들 위주로 작성해두었습니다.혹시 이쪽 분야를 제대로 공부하실 분이 있다면 도움이 되고 싶은 마음에 올려둡니다 :)  *참고 : 정렬은 제가 카테고리 내에서 공부한 순서 대로 입니다. 예를들면, 파이썬을 공부할때는 생활코딩을 듣다가 몇달 뒤 부족한게 있어서 코드잇 듣기. 그리고 면접 전에 또 파이썬 기억안나서 왼손코딩 듣기 이런식입니다.  여러개를 들어서 연습하면서 익숙해지는 용도였어요.**꼭 이걸 다 들어야 한다는 건 아니에요. 오히려 전략적으로 필요한 걸 골라 들으시는게 좋을 수 있습니다.**공부한 지 시간이 좀 되다보니, 출시된 지 3년 이상 된 강의들이 대다수 입니다. 요새는 다른 좋은 강의들도 많이 나왔을거에요. 모든건 그냥 듣고 이해하는게 아니라 실습이 중요해요!!!!!코딩은 강의를 듣는건 아무 의미가 없습니다!!제가 밑어 적어둔 모든 강의/책은 실습하면서 공부했어요(이 이미지 링크는 저의 블로그 가시면 클릭하실 수 있어요!) https://shorturl.at/ikFG6저는 인스타그램에서 활발하게 소통하고 있어요 (꿀팁 & 커리어 관련 포스팅) : https://www.instagram.com/hali.note/편하게 친구 추가하시구, 커리어 & 생산성 관련 이야기 받아가세요!  글이 도움이 되셨다면 하트 / 댓글 부탁드립니다 :)  

데이터 사이언스데이터분석가데이터사이언스데이터과학데이터분석문과생개발직군

데이콘

[데이콘 우승자 인터뷰] #19 상점 총 매출 예측 대회 2위 수상자 인터뷰 (hello

1차 대회 2위 수상자 hellocrypto님 인터뷰를 공유합니다. "인터뷰 전문 보러가기" (클릭!) 수상을 진심으로 축하합니다. 수상 소감 부탁드립니다. 군생활을 하면서 힘들게 참여했는데 수상까지 하게 되어 저에게 뜻이 깊은 상입니다. 그리고 그만두려던 데이터 사이언스를 다시 붙잡게 된 계기가 되어 고맙기도 한 상입니다. 이번 계기로 꾸준히 공부하고 다양한 대회를 참여하면서 군생활을 마무리하고 관련 커리어를 갖도록 노력해 나가겠습니다. 상금으로는 부모님, 그리고 부대 후임들과 맛있는 식사/회식을 하고 나머지는 저축했습니다. (상금이 일부분만 입금되는 해프닝도 있었지만 담당 측에서 신속히 해결해주셔서 한 시름 덜었습니다^^.) 데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요? 본래는 예전부터 데이터 스크레이핑에 관심이 많았습니다. 온라인 상에 퍼져 있는 수 많은 데이터를 끌어 모아 한 눈에 보기 편하게 전달하는 것에 매력을 느꼈습니다. 따라서 사이드 프로젝트로 항목에 따른 온라인 최저가 인쇄 사이트 추천, 웹소설 조회 수 및 매출 추이, 암호화폐 ICO 정보 취합 등 여러가지를 조금씩 진행해봤습니다. 그러다 보니 그 이상으로 무언가를 해보고 싶어졌습니다. 비전공자라 뒤늦게 우연히 ‘데이터 사이언스’라는 키워드를 접하게 되었고 저에게 ‘유레카’의 순간이었습니다.   열심히 모은 데이터를 단순히 정렬해서 보여주는 것만 아니라 토대로 분석과 예측을 할 수 있다니! 그렇게 데이터 분석의 길에 빠져들었습니다.  

데이터 사이언스데이콘Dacon인공지능데이터분석데이터사이언스데이터마이닝

채널톡 아이콘