Schulungsübersicht
Einführung, Ziele und Migrationsstrategie
- Kursziele, Anpassung des Teilnehmerprofils und Erfolgskriterien
- Hochrangige Migrationsansätze und Risikoaspekte
- Einrichten von Workspaces, Repositories und Labordatensätzen
Tag 1 — Migrationsgrundlagen und Architektur
- Lakehouse-Konzepte, Delta Lake-Überblick und Databricks-Architektur
- Unterschiede zwischen SMP und MPP sowie deren Auswirkungen auf die Migration
- Medallion-Design (Bronze→Silber→Gold) und Unity Catalog-Überblick
Tag 1 Lab — Übersetzen einer gespeicherten Prozedur
- Praktische Migration einer Beispielgespeicherten Prozedur in ein Notebook
- Abbilden von Temp-Tabellen und Cursors auf DataFrame-Transformationen
- Validierung und Vergleich mit der ursprünglichen Ausgabe
Tag 2 — Fortgeschrittene Delta Lake & Inkrementelle Ladung
- ACID-Transaktionen, Commit-Logs, Versionierung und Zeitreise
- Auto Loader, MERGE INTO-Muster, Upserts und Schemaevolution
- OPTIMIZE, VACUUM, Z-ORDER, Partitionierung und Speicheroptimierung
Tag 2 Lab — Inkrementelle Ingestion & Optimierung
- Implementierung von Auto Loader-Ingestion und MERGE-Workflows
- Anwendung von OPTIMIZE, Z-ORDER und VACUUM; Validieren der Ergebnisse
- Messen von Lese-/Schreibleistungsverbesserungen
Tag 3 — SQL in Databricks, Leistung & Debugging
- Analytische SQL-Funktionen: Fensterfunktionen, Hochrangefunktionen, JSON/Array-Verarbeitung
- Lesen der Spark UI, DAGs, Shuffles, Stufen, Aufgaben und Flaschenhalsdiagnose
- Abfrageoptimierungsmuster: Broadcast-Joins, Hinweise, Caching und Reduktion von Spills
Tag 3 Lab — SQL-Refactoring & Leistungsoptimierung
- Refaktorisieren eines aufwändigen SQL-Prozesses in optimiertes Spark SQL
- Verwenden von Spark UI-Traces, um Schieflagen und Shuffle-Probleme zu identifizieren und zu beheben
- Benchmarking vor/nach und Dokumentation der Optimierungsschritte
Tag 4 — Taktisches PySpark: Ersetzen prozeduraler Logik
- Spark-Modell: Treiber, Exekutoren, faule Auswertung und Partitionierungsstrategien
- Umwandeln von Schleifen und Cursors in vektorisierte DataFrame-Operationen
- Modularisierung, UDFs/pandas UDFs, Widgets und wiederverwendbare Bibliotheken
Tag 4 Lab — Refaktorisieren prozeduraler Skripte
- Refaktorisieren eines prozeduralen ETL-Skripts in modulare PySpark-Notebooks
- Einführen von Parametrisierung, unit-ähnlichen Tests und wiederverwendbaren Funktionen
- Code-Review und Anwendung einer Best-Practice-Checkliste
Tag 5 — Orchestrierung, End-to-end Pipeline & Best Practices
- Databricks Workflows: Job-Design, Task-Abhängigkeiten, Trigger und Fehlerbehandlung
- Entwerfen inkrementeller Medallion-Pipelines mit Qualitätsregeln und Schema-Validierung
- Integration in Git (GitHub/Azure DevOps), CI und Teststrategien für PySpark-Logik
Tag 5 Lab — Erstellen einer vollständigen End-to-end Pipeline
- Zusammenstellen der Bronze→Silber→Gold-Pipeline, orchestriert mit Workflows
- Implementierung von Logging, Auditing, Wiederholungen und automatisierten Validierungen
- Ausführen der vollständigen Pipeline, Validieren der Ergebnisse und Vorbereiten von Bereitstellungsnotizen
Operationalisierung, Governance und Produktionsbereitschaft
- Unity Catalog-Governance, Linienführung und Zugriffskontrollen: Best Practices
- Kosten, Cluster-Größen, Autoskalierung und Job-Konkurrenz muster
- Bereitstellungschecklisten, Rollback-Strategien und Erstellung von Runbooks
Abschlussüberprüfung, Wissensübertragung und Nächste Schritte
- Teilnehmerpräsentationen der Migrationsarbeit und gelernten Lektionen
- Lückenanalyse, empfohlene nachfolgende Aktivitäten und Übergabe von Trainingsmaterialien
- Referenzen, weitere Lernpfade und Unterstützungsoptionen
Voraussetzungen
- Grundlegendes Verständnis von Data-Engineering-Konzepten
- Erfahrung mit SQL und gespeicherten Prozeduren (Synapse / SQL Server)
- Kenntnisse im Umgang mit ETL-Orchestrierungskonzepten (ADF oder ähnlich)
Zielgruppe
- Technologische Manager mit Hintergrund in Data Engineering
- Data Engineers, die prozedurale OLAP-Logik auf Lakehouse-Muster umstellen
- Plattform-Ingenieure, die für die Einführung von Databricks verantwortlich sind