작성
·
327
답변 2
0
아하~ 혼자서 이 과정들을 하다보니 조직 내 프로세스를 생각해보지 못했었군요!
조직 내 업무 파이프라인까지 고려해서 강의를 만들어주신 점 너무 감사드립니다!!
이해가 됩니다. 저 과정은 업무 형태나 조직 구조가 어떻게 되어있느냐에 따라 달라질 수 있는거네요
상세한 답변 정말 감사드립니다
0
안녕하세요! 엄창용님!
오늘도 역쉬! 좋은 질문 입니다. ㅎㅎ
하이브와 HDFS의 기술적 역할이 다른거는 잘 아실테고요,,, 그러다 보니 사용자/부서/개발자/분석가 등등등 조직의 거버넌스 정책에 따라서 하이브와 HDFS를 사용하는 역할과 권한이 다릅니다.
단순화 하면은요...
* Hive - 데이터 엔지니어
* Local Disk/HDFS - 연동(I/F) 엔지니어
* Python/R - 분석가/모델러
위 상황에서 예를들면요..
1. 데이터 엔지니어가 Hive로 데이터 가공 및 전처리해서 Local 디스크에 생성
2. 연동 엔지니어가 Local 데이터를 읽어서 HDFS의 분석파일 경로로 이동
3. 분석가/모델러가 HDFS의 분석파일을 로드해서 Python/R 환경에서 분석 수행
이런걸 데이터 파이프라인이라 하고, 정확한 정답은 없습니다. 각자의 역할과 상황에서 담당하는 시스템을 이용해 최적의 파이프라인으로 구성 하게 됩니다.
- 빅디 드림