17%
66,000원
- Jmob2023-10-161048693
안녕하세요, 업무에서 airflow로 data 관련 ETL 작업을 하고 있습니다. 저희의 경우 airflow에서 스케줄링 + logical date time에 따른 ETL 로직도 dag에서 처리하고 있는데요. 무거운 작업을 하는 경우 자주 문제가 생겨서 airflow에서는 스케줄링만 하고, etl 작업은 분리해서 실행하도록 하려고 합니다. 혹시 이런 내용들을 강의에서 배울 수 있을까요? 예를 들어 ETL 작업을 하는 코드를 ECR에 올리고 실행을 한다면, 실행 할 때, dag_id, task_id, run_id, start_datetime, end_datetime을 넘겨서 이에 맞춰서 처리하도록 하고, ETL 작업의 성공 실패를 airflow 상에서 확인 후 표시 및 retry를 할 수 있으면 좋을 듯합니다..! 이러한 문제 해결이 가능할까요?
안녕하세요. 본 강의는 파이썬 프로그래밍 입문자를 위한 강의입니다. 따라서 Airflow에 관한 내용은 들어있지 않습니다^^ 데이터 처리를 할때 Airflow이외에 다른 클라우드 플랫폼(AWS, GCP 등)을 사용하시나요? 그렇다면 클라우드에서 따로 로그를 연동해서 사용하시나요? 로그파일에서 Airflow에 관한 다양한 메타데이터를 출력해서 사용하실 수 있을꺼에요~ Airflow의 dag_id, task_id, run_id는 로컬에서 airflow.models 라이브러리를 불러온 다음 dag_id, task_id를 불러와서 사용할 수 있습니다. 이에 관한 내용은 여기서 확인하실 수 있어요: https://airflow.apache.org/docs/apache-airflow/stable/_api/airflow/models/dag/index.html 비록 Airflow도 Python언어로 구현되긴 하지만 본 강의는 파이썬에 대해 아무런 지식이 없는 분들을 위한 강의입니다 :) 혹시라도 Airflow에 대해 도움이 필요하시다면 따로 연락주세요^^ 감사합니다!