-
Airflow - 에어플로우가 구동되려면.Airflow 2023. 12. 19. 01:45
에어플로우 엔진구성
- 에어플로우 스케줄러
- DAG를 분석, 등록하고 워커에 DAG의 스케줄러를 등록한다.
- 에어플로우 워커
- 스케줄러에서 예약했던 DAG의 스케줄링을 실행한다.
- 에어플로우 웹 서버
- 스케줄러에서 분석한 DAG를 비주얼라이징하고, 워커에서 실행한 DAG의 결과를 보여준다.
이미지 자료 : https://limitlessdatascience.wordpress.com/2019/10/10/apache-airflow-architecture/ - 실제로 도커 컴포즈로 올린 컨테이너만 보아도 위 그림처럼 나뉘어서 생성이 됨을 확인 할 수 있음.
- (airflow-trigger는 docker-compose 파일을 확인해보니 주기적으로 에어플로우 job테이블을 확인하여 DAG의 트리거 결과 및 상태를 확인하는 명령어를 실행하는 컨테이너이다.)
- 번외
- 23년 11월에 DAG의 start_date 파라미터를 항상 “실행하는 때”로 등록하니, 실행이 안된다. 반드시 과거로 설정해야한다.
- 혼잣말
- https://limitlessdatascience.wordpress.com/2019/10/10/apache-airflow-architecture/
- 이미지 첨부하면서 들어갔던 사이트인데, 아키텍처 참고할 수 있는 유스케이스다. 월척이다. 참고해야지. 실제로 병렬 설정을 airflow.cfg에서 설정가능한데, 병렬 케이스에서 task의 분산 처리나 pending처리는 어찌하는지 궁금했는데 아키텍처 보면서 고개를 끄덕임.
'Airflow' 카테고리의 다른 글
Airflow - Testing (0) 2024.03.25 Airflow - Sensor (0) 2024.02.18 Airflow - Branch (0) 2024.01.21 Airflow - Task 의존성 (0) 2024.01.21 Airflow - DAG, Task, Operator, Scheduling (0) 2023.12.20 - 에어플로우 스케줄러