Schulungsübersicht

Einführung, Ziele und Migrationsstrategie

  • Kursziele, Anpassung der Teilnehmerprofile und Erfolgskriterien
  • Hochrangige Migrationsansätze und Risikobetrachtungen
  • Einrichten von Workspaces, Repositories und Labordatensätzen

Tag 1 — Migrationsgrundlagen und Architektur

  • Lakehouse-Konzepte, Delta Lake-Überblick und Databricks-Architektur
  • SMP vs. MPP Unterschiede und Auswirkungen auf die Migration
  • Medallion (Bronze→Silber→Gold)-Design und Unity Catalog-Überblick

Tag 1 Labor — Übersetzen einer gespeicherten Prozedur

  • Praxisnahe Migration einer Beispielgespeicherten Prozedur in ein Notebook
  • Abbildung von Temp-Tabellen und Cursors auf DataFrame-Transformationen
  • Validierung und Vergleich mit der ursprünglichen Ausgabe

Tag 2 — Fortgeschrittene Delta Lake & Inkrementelle Ladung

  • ACID-Transaktionen, Commit-Logs, Versionierung und Time Travel
  • Auto Loader, MERGE INTO-Muster, Upserts und Schemaevolution
  • OPTIMIZE, VACUUM, Z-ORDER, Partitionierung und Speicheranpassung

Tag 2 Labor — Inkrementelle Aufnahme & Optimierung

  • Implementierung von Auto Loader-Aufnahme und MERGE-Workflows
  • Anwendung von OPTIMIZE, Z-ORDER und VACUUM; Validierung der Ergebnisse
  • Messen der Lese-/Schreibleistungsverbesserungen

Tag 3 — SQL in Databricks, Performance & Debugging

  • Analytische SQL-Funktionen: Fensterfunktionen, höhere Ordnungsfunktionen, JSON- und Arrayverarbeitung
  • Lesen der Spark UI, DAGs, Shuffles, Stages, Tasks und Flaschenhalsdiagnose
  • Abfrageoptimierungsmuster: Broadcast Joins, Hinweise, Caching und Reduktion von Spills

Tag 3 Labor — SQL-Refactoring & Performance-Tuning

  • Refactoring eines intensiven SQL-Prozesses in optimiertes Spark SQL
  • Verwenden von Spark UI-Traces, um Skew- und Shuffle-Probleme zu identifizieren und zu beheben
  • Vorher-Nachher-Benchmarking und Dokumentation der Optimierungsschritte

Tag 4 — Taktisches PySpark: Ersetzen prozeduraler Logik

  • Spark-Ausführungsmodell: Driver, Executoren, lazy evaluation und Partitionierungsstrategien
  • Transformation von Schleifen und Cursors in vektorisierte DataFrame-Operationen
  • Modularisierung, UDFs/Pandas UDFs, Widgets und wiederverwendbare Bibliotheken

Tag 4 Labor — Refactoring prozeduraler Skripte

  • Refactoring eines prozeduralen ETL-Skripts in modulare PySpark-Notebooks
  • Einführung von Parametrisierung, unit-testähnlichen Tests und wiederverwendbaren Funktionen
  • Code-Review und Anwendung eines Best-Practices-Checklists

Tag 5 — Orchestrierung, End-to-End-Pipeline & Best Practices

  • Databricks Workflows: Job-Design, Task-Abhängigkeiten, Trigger und Fehlerbehandlung
  • Entwerfen inkrementeller Medallion-Pipelines mit Qualitätsregeln und Schemavalidierung
  • Integration in Git (GitHub/Azure DevOps), CI und Teststrategien für PySpark-Logik

Tag 5 Labor — Erstellen einer vollständigen End-to-End-Pipeline

  • Zusammenstellen der Bronze→Silber→Gold-Pipeline, orchestriert mit Workflows
  • Implementierung von Logging, Auditing, Retries und automatisierten Validierungen
  • Ausführen der vollständigen Pipeline, Validieren der Ergebnisse und Vorbereitung von Bereitstellungshinweisen

Operationalisierung, Governance und Produktionsbereitschaft

  • Unity Catalog-Governance, Linienführung und beste Praktiken für Zugriffssteuerung
  • Kosten, Clustergrößen, Autoskalierung und Job-Konkurrenzmustern
  • Bereitstellungschecklisten, Rollback-Strategien und Runbook-Erstellung

Abschlussprüfung, Wissenstransfer und nächste Schritte

  • Teilnehmerpräsentationen der Migrationsarbeit und gelernten Lektionen
  • Lückenaufdeckung, empfohlene nachfolgende Aktivitäten und Übergabe von Trainingsmaterialien
  • Referenzen, weitere Lernwege und Support-Optionen

Voraussetzungen

  • Grundverständnis von Data Engineering-Konzepten
  • Erfahrung mit SQL und gespeicherten Prozeduren (Synapse / SQL Server)
  • Kenntnisse in ETL-Orchestrierungskonzepten (ADF oder vergleichbar)

Zielgruppe

  • Technische Manager mit Hintergrund in Data Engineering
  • Data Engineer, die prozedurale OLAP-Logik auf Lakehouse-Muster umstellen
  • Plattform-Ingenieure, die für die Einführung von Databricks verantwortlich sind
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien