데이터 관련 커리어에 관하여 질문드립니다.

안녕하세요. 현재 데이터 사이언티스트 및 엔지니어를 꿈꾸고 있습니다.

데이터 사이언티스트가 회사에 따라 일하는 업종이 다르지만, 제가 생각하기에 제가 원하는 직무는 데이터 분석에 가까운 것 같습니다. 게임업계의 N사의 경우 데이터 사이언티스트를 채용했으나, 추천시스템이나 이상탐지 등 모델을 개발하는 업무라 아무래도 학사 출신 보다는 석/박사 출신들이 많을 것 같다는 생각이 들었기 때문입니다. 머신러닝과 딥러닝 모델을 가져와서 쓰는 것은 가능하지만, 만드는 것은 또 다른 영역이었기에, 해당 부분으로는 꿈을 접게 되었습니다.

그래서 데이터 분석가 쪽으로 가자! 는 마음으로 Python외에도 SQL 공부를 지속적으로 해왔습니다. 문제는, 면접장을 가봤더니, 어떤 회사의 경우 SQL이 아닌 SAS를 쓰는 경우도 있었고, 가장 크게 한계에 부딪쳤던 부분은, 서비스 지표의 문제점을 파악하고 다양한 가설 및 A/B 테스트로 서비스 개선을 해보신 분 (모바일 서비스 데이터 분석), 데이터 시각화(Tableau 등 BI툴) 경험을 본다는 점입니다.

SAS는 일단 너무 비싸기 때문에, 이건 혼자서 배울 수 있는 능력이 아니라고 판단해서, 제외했습니다.
데이터 시각화의 경우 Tableau는 혼자서 책을 찾아보면서 공부를 하는 중입니다.

Q1. 서비스 지표의 문제점을 파악하고 다양한 가설 및 A/B 테스트로 서비스 개선을 해보신 분 이라는 이 부분이 저는 도대체 어떻게 신입이 키워나갈 수 있는지, 어떻게 공부를 하면 좋을지... 잘 모르겠습니다. 서비스 지표를 통해서 해당 데이터를 분석하는 건 할 수 있지만, 지표의 문제점을 파악한다? 가 와닿지가 않습니다.

마케팅 지표를 알아야, 해당 요건을 충족할 수 있을 것 같았지만, Q1을 해결하지 못해서, 데이터를 가지고 할 수 있는 일이 무엇이 있을까...를 생각해보던 중 Data Engineer라는 직무도 알게 되었습니다. Java SpringBoot 나 Django를 활용해서 웹을 개발한 경험도 있었고, Spark, Hive SQL에 대해서 공부를 했던 경험이 있었기 때문입니다. 그런데, 항상 공고에 등장했던 부분이었던 대용량 데이터 처리를 위한 데이터 파이프라인(수집/처리/분석) 개발 경험이 발목을 잡았던 것 같습니다.

Q2. 데이터 파이프라인(수집/처리/분석) 개발 경험이 하둡 아키텍처나, K8S 내에서 트러블 슈팅 경험을 말하는 것인가요? 해당 부분을 해보려고 했으나, 문제는 하둡 아키텍처를 AWS로 구성하는데 비용이 엄청나게 들어서 엄두를 못냈습니다.

수집은 크롤링으로 했는데, Kafka도 언급이 있는 걸 보면, Kafka나 Flink와 같이 실시간 스트리밍 수집을 공부해야할까요?

아키텍처를 구성해야 할 것 같은데, 관련 지식이 없어서 문제입니다.

비전공자다 보니, 취업이 생각보다 너무 어렵게 느껴집니다. 이번 하반기는 유독 2차에서 많이 떨어졌네요.. 내년 상반기에는 좋은 소식이 있었으면 좋겠습니다.

Q3. 추가로, 강사님께서 알려주신 부분을 공부하면서, 노션에 정리를 했었습니다. 노션에는 강사님께서 첨부하신 PDF자료는 일절 없고, 쿼리문과 제가 공부를 하면서 느낀 점이나, 어떻게 문제를 풀어야하는지 등을 정리했는데, 혹시 괜찮을까요? (노션이 홈페이지와 연동이 되어있다보니, 문제가 있다면 해당 부분은 개인 아카이브에 보관하겠습니다.)

=> 답변주신부분대로 테이블 조회(데이터 확인=> 이건 강사님께서 만드신 소중한 수업 자료이니 해당 부분은 제외) 부분을 제외하구 쿼리 부분만 기재해도록 하겠습니다.

Q1.

실질적으로 해당 사항은 신입에게 요구되는 역량이라기보다는 실질적으로 IT 및 기타 산업군에서 경력을 가진 적이 있는가에 대한 부분(쉽게 말하면 경력자 우대..)이라고 보시면 됩니다. 서비스 지표의 문제점이라 함은 회사에서 제공하고 있는 지표들이 실무에서 유의미하게 작동하는지, 그렇지 않다면 현업에서 활용도를 높이기 위해 어떤 부분을 바꾸어야 하는 가에 관한 내용입니다.
이 부분을 어떻게 공부하냐 라기보다는 지원하시는 회사에서 내가 진행하고 싶은 분석이 있다면 무엇일지, 가능하면 raw data level에서부터 고민해볼 필요가 있습니다. 면접 혹은 서류 전형에서도 '진행하고 싶은 데이터 분석 주제'에 대한 이야기는 자주 등장하는 편입니다.

Q2.

데이터 파이프라인 개발은 raw data의 수집, 그리고 이를 spark 등의 분산 처리 환경에서 확인할 수 있도록 처리하는 일련의 과정을 말합니다. 이 부분은 분명히 비용적으로 큰 부분이 소요되며, 학생 신분에서는 실행하기 어려운 부분입니다(첫 질문과 마찬가지로 분산처리 환경에서 데이터 엔지니어링을 해본 경력을 가리킵니다..ㅠㅠ)

최근에는 Databricks 등 분산 처리 환경을 실습할 수 있는 환경들이 몇몇 존재하기 때문에 이를 통해서 실습해볼 수는 있어 이를 학습할 수 있는 부분들에 대해 고민해보시면 좋을 것 같습니다. 다만, 비전공자상태에서 급하게 준비하기에는 분석 직무에 비해 기술적 허들이 존재한다고 생각합니다.

Q3.

열심히 문제 풀이해주셔서 감사합니다 🙂 도입부에 테이블 조회 부분(각 테이블 데이터 확인)만 제외해주시고 사용해주시면 될 것 같습니다. (풀이에 대한 고민흔적이 있으니 다른 수강생 분들을 위해 링크는 지워주셔도 될 것 같습니다!)

최근 데이터 분석 분야를 비롯해 여러 IT 회사에서 채용 축소에 따라 신입 취준생 분들이 많은 어려움을 겪고 계실텐데, 개인의 이슈라기보다는 외부적인 요인, 경쟁 심화 등의 문제가 분명히 존재하니 너무 좌절하지 마시고 말씀드렸던 데이터 분석 관련 주요 역량들(sql, python, 데이터 시각화, 머신러닝 등)을 잘 챙기신다면 충분히 내년에는 좋은 소식이 있을 것이라고 생각합니다! 힘내세요!

인프런 커뮤니티 질문&답변