Đề cương khóa học

Giới thiệu về Apache Airflow

  • Điều phối quy trình làm việc là gì
  • Các tính năng và lợi ích chính của Apache Airflow
  • Cải tiến của Airflow 2.x và tổng quan về hệ sinh thái

Kiến trúc và các khái niệm cốt lõi

  • Scheduler, web server, và worker processes
  • DAGs, tasks, và operators
  • Executors và backends (Local, Celery, Kubernetes)

Cài đặt và thiết lập

  • Cài đặt Airflow trong môi trường local và đám mây
  • Cấu hình Airflow với các executors khác nhau
  • Thiết lập cơ sở dữ liệu metadata và kết nối

Điều hướng giao diện người dùng và dòng lệnh của Airflow

  • Khám phá giao diện web của Airflow
  • Theo dõi các phiên chạy DAG, tasks, và logs
  • Sử dụng dòng lệnh Airflow cho quản trị

Viết và quản lý DAGs

  • Tạo DAGs bằng TaskFlow API
  • Sử dụng operators, sensors, và hooks
  • Quản lý các phụ thuộc và khoảng thời gian lên lịch

Tích hợp Airflow với dữ liệu và dịch vụ đám mây

  • Kết nối với cơ sở dữ liệu, API, và hàng đợi tin nhắn
  • Chạy các đường ống ETL bằng Airflow
  • Tích hợp đám mây: AWS, GCP, Azure operators

Giám sát và quan sát

  • Nhật ký task và giám sát thời gian thực
  • Các chỉ số với Prometheus và Grafana
  • Báo cáo và thông báo qua email hoặc Slack

Bảo mật Apache Airflow

  • Điều khiển truy cập dựa trên vai trò (RBAC)
  • Xác thực với LDAP, OAuth, và SSO
  • Quản lý bí mật với Vault và các kho bí mật đám mây

Mở rộng Apache Airflow

  • Đồng thời, đồng bộ hóa, và hàng đợi task
  • Sử dụng CeleryExecutor và KubernetesExecutor
  • Triển khai Airflow trên Kubernetes với Helm

Các thực hành tốt nhất cho sản xuất

  • Kiểm soát phiên bản và CI/CD cho DAGs
  • Kiểm thử và gỡ lỗi DAGs
  • Duy trì độ tin cậy và hiệu suất ở quy mô lớn

Khắc phục sự cố và tối ưu hóa

  • Gỡ lỗi DAGs và tasks bị thất bại
  • Tối ưu hóa hiệu suất DAG
  • Các bẫy thông thường và cách tránh chúng

Tổng kết và các bước tiếp theo

Yêu cầu

  • Kinh nghiệm lập trình Python
  • Hiểu biết về khái niệm kỹ thuật dữ liệu hoặc DevOps
  • Hiểu rõ về ETL hoặc điều phối quy trình làm việc

Đối tượng học viên

  • Khoa học dữ liệu
  • Kỹ sư dữ liệu
  • Kỹ sư DevOps và hạ tầng
  • Lập trình viên phần mềm
 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (7)

Các khóa học sắp tới

Các danh mục liên quan