Kontakt aufnehmen

Schulungsübersicht

Einführung in Apache Airflow

  • Was ist Workflow-Orchestrierung?
  • Wichtige Funktionen und Vorteile von Apache Airflow
  • Verbesserungen in Airflow 2.x und Überblick über das Ökosystem

Architektur und Kernkonzepte

  • Scheduler, Webserver und Worker-Prozesse
  • DAGs, Tasks und Operatoren
  • Executoren und Backends (Local, Celery, Kubernetes)

Installation und Einrichtung

  • Installation von Airflow in lokalen und Cloud-Umgebungen
  • Konfiguration von Airflow mit verschiedenen Executoren
  • Einrichtung von Metadata-Datenbanken und Verbindungen

Navigation in der Airflow-Oberfläche und CLI

  • Erkundung der Airflow-Weboberfläche
  • Überwachung von DAG-Läufen, Tasks und Logs
  • Nutzung der Airflow-CLI zur Administration

Erstellung und Verwaltung von DAGs

  • Erstellen von DAGs mit der TaskFlow-API
  • Einsatz von Operatoren, Sensoren und Hooks
  • Verwaltung von Abhängigkeiten und Zeitplänen

Integration von Airflow mit Daten- und Cloud-Diensten

  • Verbindungsaufbau zu Datenbanken, APIs und Message Queues
  • Ausführung von ETL-Pipelines mit Airflow
  • Cloud-Integrationen: AWS-, GCP- und Azure-Operatoren

Überwachung und Observability

  • Task-Logs und Echtzeitüberwachung
  • Metriken mit Prometheus und Grafana
  • Alarmierung und Benachrichtigungen per E-Mail oder Slack

Sicherung von Apache Airflow

  • Rollengesteuerter Zugriff (RBAC)
  • Authentifizierung über LDAP, OAuth und SSO
  • Verwaltung von Secrets mit Vault und Cloud-Secret-Stores

Skalierung von Apache Airflow

  • Parallelität, Concurrency und Task-Warteschlangen
  • Einsatz von CeleryExecutor und KubernetesExecutor
  • Bereitstellung von Airflow auf Kubernetes mit Helm

Best Practices für den Produktiveinsatz

  • Versionsverwaltung und CI/CD für DAGs
  • Tests und Debugging von DAGs
  • Sicherstellung von Zuverlässigkeit und Performance im großen Maßstab

Troubleshooting und Optimierung

  • Fehlersuche bei fehlgeschlagenen DAGs und Tasks
  • Optimierung der DAG-Performance
  • Häufige Fallstricke und deren Vermeidung

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Erfahrung in der Python-Programmierung
  • Kenntnisse in Data Engineering oder DevOps-Konzepten
  • Verständnis von ETL-Prozessen oder Workflow-Orchestrierung

Zielgruppe

  • Data Scientists
  • Data Engineers
  • DevOps- und Infrastructure-Engineers
  • Softwareentwickler
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (7)

Kommende Kurse

Verwandte Kategorien