작성
·
623
0
답변 3
0
안녕하세요 권 철민 강사님 ! 위의 분과 비슷한 질문?을 드리고 싶습니다
저는 데이터 엔지니어 진로를 희망하고 현재 airflow 라는 기술을 배우고 있습니다
이 airflow 라는 기술을 스파크나 하둡 플랫폼 얹어야 하는데
둘 중 파이썬 기반인 스파크를 선택하였는데
스파크에 대한 지식이 부족하다보니 인프런의 유일한 권 철민 강사님 스파크 강의를 찾아오게 되었습니다
질문 :
이 강의는 etl 파이프라인 등 데이터 엔지니어링 구축 보다 머신러닝쪽인거 같은데
데이터 엔지니어링 쪽으로도 공부할 수 있는 파트가 있나요..?
데이터 엔지니어쪽 파트와 연관이 있다면 1탄부터 추후 나오는 2탄까지 모두 강의 신청하겠습니다!ㅠㅠ
0
선생님 답변 감사드립니다. 질문자는 아니지만 답변에 추가로 문의드립니다.
답변 중에 SQL을 추가로 공부해보라는 말씀이
1. "고급" SQL 문법을 공부하라는 뜻인가요?(예 : 서브쿼리, windowing 등등)
2. 아니면 이것이 아니라, 더 높은 수준의 SQL 구조나 프로그램 작동원리(?) 를 공부하라는 뜻인가요?
만약 2라면, 2를 공부할 수 있는(또는 무엇을 공부해야 할지 알아볼 수 있는) 방향이나 책, 강의 를 추천해주실 수 있으시면 정말 감사하겠습니다!
0
안녕하십니까,
이 분야가 워낙 빨리 변하기 때문에 제가 섵불리 어떤 분야의 수요나 전망을 예측하지는 못할 것 같습니다만 아래와 같이 부족한 답변 달아봅니다.
먼저 oracle sql과 tensorflow정도를 아시면, 신입으로 취직하기에는 충분한 스펙으로 개인적으로 생각합니다.
안녕하십니까,
1. 음, 개인적으로는 서브쿼리와 window 함수가 고급 SQL 문법이 아니라 기본이라고 생각되지만, 보는 사람에 따라서는 그렇게 생각될 수도 있겠군요. 아뭏튼 서브쿼리, window함수등을 포함한 SQL기본 사항은 탄탄하게 갖추면 좋습니다. 데이터 파이프라인이든, 스파크든 결국은 SQL을 많이 활용해서 데이터 가공을 합니다.
2. SQL의 작동원리는 성능적인 부분이 강하니까, 별도 영역이라고 생각합니다. SQL을 잘사용한다는 것은 데이터 세트를 잘 다루고, 집합을 잘 만든다는 의미 입니다. 이게 좀 추상적이어서 글로 설명하기는 어렵지만, 결국은 원천데이터를 ETL등을 통해서 DW든, DM 형태든 정제된 분석 데이터 세트로 만들어야 하는데, 그럴려면 SQL을 이용해서 원하는 집합을 자유자재로 만들 수 있어야 합니다.
이게 단순히 SQL만 알아서는 안되고, 부지런히 데이터를 가공해 보면서 실력을 키워나가야 하는 부분입니다. 당연히 Join, 서브쿼리, Group by, Group by case when, window함수는 기본적으로 알고 이들을 활용해서 집합을 만들수 있는 능력을 꾸준히 키워 나가면, 어느새 SQL을 잘 활용하는 경지에 이를 것입니다.