Schulungsübersicht
Einführung, Ziele und Migrationsstrategie
- Kursziele, Anpassung der Teilnehmerprofile und Erfolgskriterien
- Hochrangige Migrationsansätze und Risikobetrachtungen
- Einrichten von Workspaces, Repositories und Labordatensätzen
Tag 1 — Migrationsgrundlagen und Architektur
- Lakehouse-Konzepte, Delta Lake-Überblick und Databricks-Architektur
- SMP vs. MPP Unterschiede und Auswirkungen auf die Migration
- Medallion (Bronze→Silber→Gold)-Design und Unity Catalog-Überblick
Tag 1 Labor — Übersetzen einer gespeicherten Prozedur
- Praxisnahe Migration einer Beispielgespeicherten Prozedur in ein Notebook
- Abbildung von Temp-Tabellen und Cursors auf DataFrame-Transformationen
- Validierung und Vergleich mit der ursprünglichen Ausgabe
Tag 2 — Fortgeschrittene Delta Lake & Inkrementelle Ladung
- ACID-Transaktionen, Commit-Logs, Versionierung und Time Travel
- Auto Loader, MERGE INTO-Muster, Upserts und Schemaevolution
- OPTIMIZE, VACUUM, Z-ORDER, Partitionierung und Speicheranpassung
Tag 2 Labor — Inkrementelle Aufnahme & Optimierung
- Implementierung von Auto Loader-Aufnahme und MERGE-Workflows
- Anwendung von OPTIMIZE, Z-ORDER und VACUUM; Validierung der Ergebnisse
- Messen der Lese-/Schreibleistungsverbesserungen
Tag 3 — SQL in Databricks, Performance & Debugging
- Analytische SQL-Funktionen: Fensterfunktionen, höhere Ordnungsfunktionen, JSON- und Arrayverarbeitung
- Lesen der Spark UI, DAGs, Shuffles, Stages, Tasks und Flaschenhalsdiagnose
- Abfrageoptimierungsmuster: Broadcast Joins, Hinweise, Caching und Reduktion von Spills
Tag 3 Labor — SQL-Refactoring & Performance-Tuning
- Refactoring eines intensiven SQL-Prozesses in optimiertes Spark SQL
- Verwenden von Spark UI-Traces, um Skew- und Shuffle-Probleme zu identifizieren und zu beheben
- Vorher-Nachher-Benchmarking und Dokumentation der Optimierungsschritte
Tag 4 — Taktisches PySpark: Ersetzen prozeduraler Logik
- Spark-Ausführungsmodell: Driver, Executoren, lazy evaluation und Partitionierungsstrategien
- Transformation von Schleifen und Cursors in vektorisierte DataFrame-Operationen
- Modularisierung, UDFs/Pandas UDFs, Widgets und wiederverwendbare Bibliotheken
Tag 4 Labor — Refactoring prozeduraler Skripte
- Refactoring eines prozeduralen ETL-Skripts in modulare PySpark-Notebooks
- Einführung von Parametrisierung, unit-testähnlichen Tests und wiederverwendbaren Funktionen
- Code-Review und Anwendung eines Best-Practices-Checklists
Tag 5 — Orchestrierung, End-to-End-Pipeline & Best Practices
- Databricks Workflows: Job-Design, Task-Abhängigkeiten, Trigger und Fehlerbehandlung
- Entwerfen inkrementeller Medallion-Pipelines mit Qualitätsregeln und Schemavalidierung
- Integration in Git (GitHub/Azure DevOps), CI und Teststrategien für PySpark-Logik
Tag 5 Labor — Erstellen einer vollständigen End-to-End-Pipeline
- Zusammenstellen der Bronze→Silber→Gold-Pipeline, orchestriert mit Workflows
- Implementierung von Logging, Auditing, Retries und automatisierten Validierungen
- Ausführen der vollständigen Pipeline, Validieren der Ergebnisse und Vorbereitung von Bereitstellungshinweisen
Operationalisierung, Governance und Produktionsbereitschaft
- Unity Catalog-Governance, Linienführung und beste Praktiken für Zugriffssteuerung
- Kosten, Clustergrößen, Autoskalierung und Job-Konkurrenzmustern
- Bereitstellungschecklisten, Rollback-Strategien und Runbook-Erstellung
Abschlussprüfung, Wissenstransfer und nächste Schritte
- Teilnehmerpräsentationen der Migrationsarbeit und gelernten Lektionen
- Lückenaufdeckung, empfohlene nachfolgende Aktivitäten und Übergabe von Trainingsmaterialien
- Referenzen, weitere Lernwege und Support-Optionen
Voraussetzungen
- Grundverständnis von Data Engineering-Konzepten
- Erfahrung mit SQL und gespeicherten Prozeduren (Synapse / SQL Server)
- Kenntnisse in ETL-Orchestrierungskonzepten (ADF oder vergleichbar)
Zielgruppe
- Technische Manager mit Hintergrund in Data Engineering
- Data Engineer, die prozedurale OLAP-Logik auf Lakehouse-Muster umstellen
- Plattform-Ingenieure, die für die Einführung von Databricks verantwortlich sind