Schulungsübersicht

Woche 1 — Einführung in die Daten-Engineering

  • Fundamentale Konzepte des Daten-Engineerings und moderne Datenstacks
  • Dateninhaltsmuster und -quellen
  • Vergleich von Batch- und Streaming-Konzepten sowie deren Anwendungsfälle
  • Praktische Übung: Aufnahme von Beispiel-Daten in Cloud-Speicher

Woche 2 — Databricks Lakehouse Foundation Badge

  • Fundamentale Konzepte der Databricks-Plattform und Navigationsmöglichkeiten im Workspace
  • Delta-Lake-Konzepte: ACID, Zeitreise und Schema-Evolution
  • Sicherheit des Workspaces, Zugriffssteuerungen und Grundlagen von Unity Catalog
  • Praktische Übung: Erstellung und Verwaltung von Delta-Tabellen

Woche 3 — Fortgeschrittene SQL auf Databricks

  • Fortgeschrittene SQL-Konstrukte und Fensterfunktionen im großen Stil
  • Abfrageoptimierung, Explain-Pläne und kostenbewusste Muster
  • Materielle Ansichten, Caching und Performance-Tuning
  • Praktische Übung: Optimierung von analytischen Abfragen auf großen Datensätzen

Woche 4 — Databricks Certified Developer for Apache Spark (Vorbereitung)

  • Tiefgang in die Architektur von Spark, RDDs, DataFrames und Datasets
  • Wichtige Spark-Transformationen und -Aktionen; Leistungsaspekte
  • Grundlagen des Spark-Streamings und strukturierte Streaming-Muster
  • Übungsaufgaben zur Prüfungsvorbereitung und praktische Testaufgaben

Woche 5 — Einführung in die Datenmodellierung

  • Konzepte: Dimensionale Modellierung, Stern-/Schemadesign und Normalisierung
  • Lakehouse-Modellierung im Vergleich zu traditionellen Warehouse-Ansätzen
  • Designmuster für bereitstellungsfähige Datensätze
  • Praktische Übung: Erstellen von tabellarischen Strukturen und Sichten, die für die Verwendung bereit sind

Woche 6 — Einführung in Import-Tools und automatisierte Dateninhaltsprozesse

  • Konnektoren und Inhalts-Werkzeuge für Databricks (AWS Glue, Data Factory, Kafka)
  • Stream-Inhaltsmuster und Mikro-Batch-Designs
  • Datenvalidierung, Qualitätsprüfungen und Schemazwang
  • Praktische Übung: Erstellen robusten Inhaltspipelines

Woche 7 — Einführung in Git Flow und CI/CD für Daten-Engineering

  • Gil-Flow-Aststrategien und Repository-Organisation
  • CI/CD-Pipelines für Notebooks, Jobs und Infrastruktur as Code
  • Testen, Linting und automatisierte Bereitstellung von Daten-Code
  • Praktische Übung: Implementierung eines Git-basierten Workflows und automatisierter Job-Bereitstellung

Woche 8 — Databricks Certified Data Engineer Associate (Vorbereitung) & Daten-Engineering-Muster

  • Überprüfung der Zertifizierungsthemen und praktische Übungen
  • Architekturmuster: Bronze/Silver/Gold, CDC, langsam ändernde Dimensionen
  • Betriebsmuster: Monitoring, Alarmierung und Datenherkunft
  • Praktische Übung: End-to-End-Pipeline unter Anwendung von Engineering-Mustern

Woche 9 — Einführung in Airflow und Astronomer; Skripting

  • Airflow-Konzepte: DAGs, Aufgaben, Operatoren und Scheduling
  • Überblick über die Astronomer-Plattform und beste Praktiken für Orchestrierung
  • Skripting für Automatisierung: Python-Skript-Muster für Daten-Aufgaben
  • Praktische Übung: Orchestrieren von Databricks-Jobs mit Airflow-DAGs

Woche 10 — Datenvisualisierung, Tableau und individuelles Abschlussprojekt

  • Verbindung von Tableau zu Databricks und Best Practices für BI-Schichten
  • Grundsätze der Dashboards-Designs und leistungsorientierte Visualisierungen
  • Kapstone: Individuelles Abschlussprojekt im Umfang, Implementierung und Präsentation
  • Finales Vortrag, Peer-Review und Feedback des Dozenten

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Grundkenntnisse in SQL und Datenkonzepten
  • Erfahrung im Programmieren mit Python oder Scala
  • Kenntnisse von Cloud-Services und virtuellen Umgebungen

Zielgruppe

  • Aufstrebende und tätige Data Engineers
  • ETL/BI-Entwickler und Analytics-Engineer
  • Data Platform- und DevOps-Teams, die Pipelines betreuen
 350 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien