데이터 분석, 이렇게 공부해볼까요?
Notice: 글에 강의 할인 코드들이 숨어있습니다. 할인율과 발급 매수는 비밀이에요.
안녕하세요! 팀 데이터리안에서 강사를 하면서 이런저런 강의에 목소리 출연을 하고 있는 윤선미입니다.
2020년 초에 첫 강의가 나왔는데 데이터리안 팀원들과 하나씩 만들다 보니 벌써 서비스하고 있는 강의가 8개, 오늘 기준으로 총 4745건의 수강 신청이 있었네요.
8개 강의를 언어로 나눠보자면 SQL 강의가 6개, 파이썬 강의가 2개이고 모두 '데이터 분석'에 관심 있는 분들을 타깃으로 하고 있습니다. 지금쯤 서비스하고 있는 강의들의 로드맵을 얘기해보면 좋을 것 같아서 글을 쓰게 되었어요 :)
데이터리안이 서비스하고 있는 모든 강의를 훑어보고 싶으시다면 프로필에 방문해주세요.
https://www.inflearn.com/users/@datarian
---
데이터 분석은 SQL로 시작하기
데이터리안의 첫 강의이자, 데이터리안 세계관의 시작은 누가 뭐래도 [백문이불여일타] 데이터 분석을 위한 기초 SQL입니다. 런타임 1시간 36분, 강의는 7~8분 내외 17개로 맘만 먹었다면 하루 만에 끝낼 수 있는 아주 가벼운 강의입니다.
유효기한: 2021년 7월 30일까지
할인코드: 3125-73b857c32ead
지금은 SQL 강의들이 시중에 많이 나왔고, 데이터 분석가들이 SQL을 실무에서 많이 사용한다는 것을 알지만 2019년에 데잇걸즈 3기 교육을 기획할 때 당시 데이터 분석 교육은 곧 파이썬 교육이었습니다. 그런데 아무리 생각해도 이상한 거예요. 분석가 업무의 대부분은 SQL 쿼리를 짜는 것과 관련이 있고, 채용 시 코딩 테스트도 90% 이상 SQL을 보는데 왜 다들 파이썬만 가르칠까? 교육과 실무의 간극이 너무 큰 게 아닌가?
그래서 데이터 분석가 양성 과정이었던 데잇걸즈 3기에 SQL 교육을 넣게 되었습니다. 이후로 데잇걸즈 3기, 4기, 5기분들은 분석 교육을 SQL로 시작하고 있어요. 파이썬, 통계 그 어떤 과목보다 먼저 SQL을 배우고 있습니다.
---
데이터 분석을 하고 싶으신 분들이 SQL을 무엇보다 먼저 배워야 하는 이유는 크게 두 가지라고 생각합니다.
1. 분석의 시작은 데이터 추출입니다.
SQL은 데이터베이스와 통신하는 언어입니다. 데이터베이스에 데이터를 쌓기도 하고(INSERT), 지우기도 하고(DELETE), 변형하기(UPDATE)도 하는데요. 분석가가 가장 많이 사용하는 기능은 아무래도 원하는 데이터를 추출(SELECT)하는 기능입니다.
분석가는 수많은 데이터 안에서 의미를 발견해내는 일을 해야 하는데, 사막에서 모래알을 찾듯이 로그를 하나하나 읽어보면서 분석을 하지는 못하잖아요(물론 데이터가 작은 경우에는 하나하나 눈으로 보는 게 빠르고, 또 필요한 작업이기도 합니다만). 데이터 분석가의 업무는 항상 원하는 데이터를 찾아 필요한 형태로 추출해내는 것으로 시작합니다.
2. 테이블 모양의 데이터를 다루는 일반적인 규칙을 익힐 수 있습니다.
그래프, 집합 등 아주 다양한 형태의 데이터들이 있지만 현실적으로 분석가가 다루는 데이터는 대부분 행과 열을 가진 2차원의 테이블 모양입니다. SQL은 테이블 형태의 데이터를 다루는데 특화된 언어이기 때문에, SQL이 테이블을 다루는 개념*들이 그대로 R, 파이썬의 판다스* 등에 구현되어 있습니다.
*테이블을 다루는 개념: 조건에 맞는 데이터 필터링, 그룹별 집계, 테이블끼리 연결 등
*파이썬 판다스: 테이블 형태의 데이터를 파이썬에서 직관적으로 다루기 위해 개발된 대표적인 라이브러리
교육을 할 때에도 SQL을 먼저 가르치고 파이썬 판다스로 넘어가면 편하게 생각하시는 분들이 많았어요. 예를 들면, SQL에서 테이블을 연결하는 조인(JOIN)이라는 개념이 판다스에서는 이름만 바뀌어 머지(pd.merge)라고 불립니다.
테이블 데이터를 다루는 왕은 사실 엑셀이죠. SQL로 추출한 데이터를 엑셀, 구글 스프레드시트로 열어서 추가 가공을 하고 시각화까지 할 수 있다면 얼마나 많은 일들을 효율적으로 할 수 있을까요?
올해에는 SQL 학습 로드맵에 <데이터 분석을 위한 SQL 실전편>이 추가되면서 SQL 기초 학습부터 분석 실무까지 모두 다룰 수 있게 되었어요. 수강평과 커리큘럼을 확인해보시고 본인에게 맞는 수준의 강의부터 선택해서 들으시길 바랄게요!
---
SQL에서 파이썬으로 스킬 확장하기
SQL와 엑셀을 잘 다루는 것만으로 일반적인 분석 업무를 위한 스킬은 충분하다고 생각합니다. 대학원을 다니고, 회사를 다니던 주니어 시절에는 저도 엑셀보다 멋있는 걸 하고 싶었어요. 하지만 이제는 압니다. 분석가의 진짜 멋은 사용하는 툴에서 나오는 것이 아니라 분석 → 분석을 토대로 한 실험 → 성장 → 다시 분석의 사이클을 반복한 경험에서 우러나는 날카로운 통찰력이라는 것을요. SQL, 엑셀 등 분석 툴을 아무리 화려하게 쓸 줄 안다고 해도 알맹이가 없다면 맹탕이죠.
하지만 분석의 영역에 따라, 그리고 팀이 공통적으로 사용하는 언어가 무엇인지에 따라 종종 SQL 이외의 다른 언어가 필요해지기 시작합니다. 대표적으로 많이 사용되고, 또 채용에서 요구되는 언어가 파이썬입니다.
1. 엑셀보다 더 대용량의 데이터를 빠르게 핸들링할 필요가 있다.
2. 분석에 좀 더 복잡한 데이터 처리가 요구된다.
3. 특별한 시각화가 필요하다.
위와 같이 SQL과 엑셀 그리고 태블로* 같은 GUI 기반 시각화 프로그램으로는 분석이 어려운 영역에 파이썬은 굉장히 유용한 도구가 됩니다. 추천시스템 기획, 머신러닝 시스템 기획 쪽으로 업무 영역을 넓히고 싶은 분들에게는 거의 필수적이라고 보이고요.
*태블로: 데이터 시각화 프로그램
---
파이썬의 많은 데이터 분석 라이브러리들 중에서도 분석가가 가장 많이 사용하게 될 라이브러리는 단연 판다스 일텐데요. 데이터리안의 판다스 강의는 엑셀과 SQL을 이용해 판다스의 기능을 설명합니다.
그러니까 강의의 타깃이 다른 판다스 강의와 비교해서는 굉장히 좁은 편이에요. 일단 엑셀과 SQL을 다룰 줄 아시는 분들이어야 수강이 수월할 테니까요. 저희 입장에서는 수강 타깃을 좁히는 건 모험과도 같은 일인데요. 아무래도 이 사람 저 사람 다 들을 수 있는 강의가 수요가 많잖아요. 하지만 수강 예상 군을 좁게 정의할수록 그분들에게는 더 맞는 강의를 만들 수 있기 때문에 "기존 SQL 사용자 분들이 듣기 수월한 강의를 만들자!"는 취지에서 이런 콘셉트로 제작하게 되었습니다.
강의를 듣기 위한 사전 지식으로 그룹바이와 조인을 할 수 있는 SQL 지식* 그리고 기초 파이썬을 요구하고 있는데요. 기초 파이썬 강의는 저희가 올해 안으로 제작을 할 예정이지만 기존에 나와있는 좋은 강의나 자료들이 많으니까 가볍게 훑어보고 오시면 좋을 것 같습니다. 저는 점프 투 파이썬이라는 온라인 무료 서적을 추천할게요!
*데이터리안 강의를 기준으로 [백문이불여일타] 데이터 분석을 위한 중급 SQL 수준의 지식
유효기한: 2021년 7월 30일까지
할인코드: 3126-9c330fb27dd0
판다스를 다룰 줄 안다면 추천 시스템 강의도 신나게 들을 수 있죠!
우리 강의 중에 재미로 치면 이게 제일입니다(소곤소곤)
유효기한: 2021년 7월 30일까지
할인코드: 3127-58143a8372f9
---
지금까지 데이터리안이 인프런에서 서비스하고 있는 대표적인 입문 강의 두 가지를 소개해봤습니다. 꼭 저희 강의를 듣지 않으시더라도 데이터 분석에 입문하시는 분들이 재밌게 읽고 학습의 방향을 잡는데 도움이 되는 글이 된다면 좋겠습니다 :)
계속 새로운 강의도 기획하고 있어요. 파이썬 기초, 추천시스템 Collaborative Filtering 편, 데이터 시각화 입문, SQL 코딩 테스트 등 여러 강의들이 기획자들과 강사의 고뇌와 지난한 회의를 거쳐 올해, 내년 중으로 오픈될 예정입니다. 데이터리안 강의 재밌게 봐주시고 수강평도 아낌없이 남겨주시는 수강생 분들에게 감사드리고 앞으로도 많이 사랑해주시길 부탁드려요.
코테강의 정말 기대돼요! 꼭 내주세요!!