작성
·
279
0
안녕하세요 현재 Data Analyst로 커리어를 시작하면서 Spark 기반의 데이터 처리와 ML model deployment 경험을 쌓고자 해당 강의를 선택하게 되었습니다.
개발 환경에 대해 질문이 있는데 Databricks 환경이 아닌 local machine 기반의 환경에서 해당 실습을 적용해도 문제가 없을까요? 클라우드 머신 성능보다는 현재 사용하고 있는 machine의 성능이 아무래도 빠를 거 같아 질문드립니다.
(항후 다른 Kaggle 이나 개인 프로젝트 진행을 위해서 미리 개발환경 세팅을 해놓으면 좋을 것 같아서요)
제가 꼭 필요했던 강의를 찾게 되어 굉장히 기쁩니다!!
답변 1
0
안녕하십니까,
강의 내용이 목표로 하신 방향과 맞다니, 저도 기분이 좋군요.
실습 코드는 대부분 local machine 기반의 Spark에서도 수행될 수는 있지만, 몇가지 Databricks에서만 수행되는 것들이 있습니다.
만약 Spark + Zeppline을 사용하신다면 zeppline에서 dataframe을 보여주는 명령어등은 실습 코드와 다릅니다. 또 파일 시스템 접근이 조금은 상이할 수도 있습니다. 하지만 이런 정도는 인터넷 검색으로 금방 해결이 될 것입니다.
그리고 실습 중에 MLFlow도 있습니다. 이것은 Spark가 기본으로 제공하지 않기 때문에 별도의 설치 작업이 필요할 수 있습니다.
Spark가 워낙 버전이 많이 바뀌어서 어떤 버전을 사용하시느냐에 따라 차이가 발생할 수도 있지만, 이건 아마 거의 문제가 없지 않을까 싶습니다.
요약드리면 local machine에서 수행하셔도 기존 실습코드가 크게는 달라지는 부분은 없고 다른 부분이 있어도 검색등으로 쉽게 해결하실 수 있을 것 같습니다. 다만 Spark에 대한 경험이 전무하시면 이런 작은 차이들도 조금 어렵게 다가올 수도 있습니다.
감사합니다.