ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Airflow - 에어플로우가 구동되려면.
    Airflow 2023. 12. 19. 01:45

    에어플로우 엔진구성

    1. 에어플로우 스케줄러
      1. DAG를 분석, 등록하고 워커에 DAG의 스케줄러를 등록한다.
    2. 에어플로우 워커
      1. 스케줄러에서 예약했던 DAG의 스케줄링을 실행한다.
    3. 에어플로우 웹 서버
      1. 스케줄러에서 분석한 DAG를 비주얼라이징하고, 워커에서 실행한 DAG의 결과를 보여준다.

    이미지 자료 : https://limitlessdatascience.wordpress.com/2019/10/10/apache-airflow-architecture/

    • 실제로 도커 컴포즈로 올린 컨테이너만 보아도 위 그림처럼 나뉘어서 생성이 됨을 확인 할 수 있음.
    • (airflow-trigger는 docker-compose 파일을 확인해보니 주기적으로 에어플로우 job테이블을 확인하여 DAG의 트리거 결과 및 상태를 확인하는 명령어를 실행하는 컨테이너이다.)
    • 번외
      • 23년 11월에 DAG의 start_date 파라미터를 항상 “실행하는 때”로 등록하니, 실행이 안된다. 반드시 과거로 설정해야한다.
    • 혼잣말
      • https://limitlessdatascience.wordpress.com/2019/10/10/apache-airflow-architecture/
      • 이미지 첨부하면서 들어갔던 사이트인데, 아키텍처 참고할 수 있는 유스케이스다. 월척이다. 참고해야지. 실제로 병렬 설정을 airflow.cfg에서 설정가능한데, 병렬 케이스에서 task의 분산 처리나 pending처리는 어찌하는지 궁금했는데 아키텍처 보면서 고개를 끄덕임.

    'Airflow' 카테고리의 다른 글

    Airflow - Testing  (0) 2024.03.25
    Airflow - Sensor  (0) 2024.02.18
    Airflow - Branch  (0) 2024.01.21
    Airflow - Task 의존성  (0) 2024.01.21
    Airflow - DAG, Task, Operator, Scheduling  (0) 2023.12.20

    댓글

oct_sky_out