Apache Iceberg Grundlagen Schulung
Apache Iceberg ist ein Open-Source-Tabellenformat für große Datensätze, das die Zuverlässigkeit und Einfachheit von SQL-Tabellen in den Bereich der Big Data bringt. Es wurde entwickelt, um die Herausforderungen bei der Verwaltung von Big Data in Datenseen zu lösen, die oft mit komplexen Schemas, großen Dateien und diversen Datenquellen verbunden sind.
Dieses von einem Trainer geleitete Live-Training (online oder vor Ort) richtet sich an datentechnische Fachleute auf Anfängerniveau, die das notwendige Wissen und die Fähigkeiten erwerben möchten, um Apache Iceberg effektiv zur Verwaltung von großen Datensätzen, zur Sicherstellung der Datenintegrität und zur Optimierung von Datenverarbeitungsworkflows zu nutzen.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Ein gründliches Verständnis von Architektur, Funktionen und Vorteilen von Apache Iceberg zu erlangen.
- Über Tabellenformate, Partitionierung, Schemaevolution und Zeitreise-Fähigkeiten zu lernen.
- Apache Iceberg in verschiedenen Umgebungen zu installieren und zu konfigurieren.
- Iceberg-Tabellen zu erstellen, zu verwalten und zu bearbeiten.
- Den Prozess des Migrations von Daten aus anderen Tabellenformaten nach Iceberg zu verstehen.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxisübungen.
- Hands-on-Implementierung in einer Live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs wenden Sie sich bitte an uns, um die Anforderungen abzustimmen.
Schulungsübersicht
Einführung in Apache Iceberg
- Überblick über Apache Iceberg
- Bedeutung und Anwendungsfälle in moderner Datenarchitektur
- Wichtige Merkmale und Vorteile
Kernkonzepte
- Iceberg-Tabellenformat und -Architektur
- Vergleich mit anderen Tabellenformaten
- Partitionierung und Schemaevolution
- Zeitreise und Datenversionierung
Einrichtung von Apache Iceberg
- Installation und Konfiguration
- Integration von Iceberg mit verschiedenen Dataprocessing-Engines
- Einrichten einer Iceberg-Umgebung auf einem lokalen Rechner
Grundlegende Operationen
- Erstellen und Verwalten von Iceberg-Tabellen
- Schreiben in und Lesen aus Iceberg-Tabellen
- Grundlegende CRUD-Operationen
Datenmigration und -integration
- Migrieren von Daten aus Hive und anderen Systemen zu Iceberg
- Integration mit BI-Tools
- Migrieren eines Beispiel-Datensatzes zu Iceberg
Optimierung der Leistung
- Leistungsoptimierungsstrategien
- Optimieren von Abfragen und Datenscans
- Leistungsoptimierung in Iceberg
Überblick über erweiterte Funktionen
- Partitionsevolution und versteckte Partitionierung
- Tabellenevolution und Schemaveränderungen
- Zeitreise- und Rollback-Funktionen
- Implementieren erweiterter Funktionen in Iceberg
Zusammenfassung und weitere Schritte
Voraussetzungen
- Vertrautheit mit Konzepten wie Tabellen, Schemas, Partitionen und Datenimport
- Grundkenntnisse von SQL
Zielgruppe
- Data Engineers
- Datenarchitekten
- Datenanalysten
- Softwareentwickler
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Apache Iceberg Grundlagen Schulung - Buchung
Apache Iceberg Grundlagen Schulung - Anfrage
Apache Iceberg Grundlagen - Beratungsanfrage
Erfahrungsberichte (1)
Praktische Übungen. Die Kursdauer sollte eigentlich fünf Tage betragen, aber die drei Tage halfen dabei, viele Fragen zu klären, die ich bei der Arbeit mit NiFi bereits hatte.
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Erweitertes Apache Iceberg
21 StundenDieses von einem Ausbilder geleitete, Live-Training in Österreich (online oder vor Ort) richtet sich an fortgeschrittene Datenprofis, die Workflows zur Datenverarbeitung optimieren, die Datenintegrität sicherstellen und robuste Datenlakehouse-Lösungen implementieren möchten, die die Komplexitäten moderner Big-Data-Anwendungen bewältigen können.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Ein tiefgründiges Verständnis von Icebergs Architektur, einschließlich Metadaten-Management und Dateilayout, zu erlangen.
- Iceberg für optimale Leistung in verschiedenen Umgebungen zu konfigurieren und mit mehreren Datenverarbeitungsmotoren zu integrieren.
- Große Iceberg-Tabellen zu verwalten, komplexe Schemawechsel durchzuführen und Partitionsevolution zu handhaben.
- Techniken zur Optimierung der Abfrageleistung und der Datenscan-Effizienz für große Datenmengen zu beherrschen.
- Mechanismen zur Sicherstellung der Datenkonsistenz, Verwaltung transaktionaler Garantien und Handhabung von Fehlern in verteilten Umgebungen umzusetzen.
Big Data-Analytik mit Google Colab und Apache Spark
14 StundenDieser von einem Trainer durchgeführte Live-Kurs in Österreich (online oder vor Ort) richtet sich an mittelcalibrige Datenwissenschaftler und Ingenieure, die Google Colab und Apache Spark für das Verarbeiten und Analysieren von Big Data einsetzen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- Eine Big-Data-Umgebung mit Google Colab und Spark einzurichten.
- Große Datensätze effizient mit Apache Spark zu verarbeiten und zu analysieren.
- Big Data in einer kollaborativen Umgebung visualisieren.
- Apache Spark mit cloudbasierten Tools zu integrieren.
Big Data Business Intelligence for Govt. Agencies
35 StundenFortschritte in der Technologie und die steigende Menge an Informationen verändern zunehmend, wie Geschäftstätigkeit in vielen Branchen, einschließlich der Regierung, durchgeführt wird. Die Datenerstellung und -archivierung von Regierungsbehörden nimmt aufgrund des explosionsartigen Wachstums von Mobilgeräten und -anwendungen, Smart Sensoren und Geräten, Cloud Computing-Lösungen sowie Bürger-orientierten Portalen zu. Während die digitale Information zunimmt und komplexer wird, werden auch Informationsmanagement, Verarbeitung, Speicherung, Sicherheit und Ablaufverwaltung komplexer. Neue Tools zur Erfassung, Suche, Entdeckung und Analyse helfen Organisationen, Erkenntnisse aus ihren unstrukturierten Daten zu gewinnen. Der Regierungsmarkt steht an einem Wendepunkt und erkennt, dass Informationen ein strategisches Asset sind. Regierungseinheiten müssen sowohl strukturierte als auch unstrukturierte Informationen schützen, nutzen und analysieren, um besser den Bürgern zu dienen und ihre Aufgaben zu erfüllen. Während Führungskräfte in der Regierung darum bemüht sind, datengetriebene Organisationen aufzubauen, legen sie die Grundlagen, um Abhängigkeiten zwischen Ereignissen, Personen, Prozessen und Informationen zu korrelieren.
Hochwertige Regierungslösungen werden durch eine Kombination der disruptivsten Technologien entstehen:
- Mobilgeräte und -anwendungen
- Cloud-Dienste
- Soziale Business-Technologien und Netzwerke
- Big Data und Analyse
Big Data ist eine der intelligenten Branchenlösungen, die es Regierungen ermöglicht, bessere Entscheidungen zu treffen, indem sie auf Muster zurückgreifen, die durch die Analyse großer Mengen an Daten – verbunden oder unverbunden, strukturiert oder unstrukturiert – erkannt werden.
Die Umsetzung dieser Leistungen erfordert jedoch weit mehr als nur das Sammeln riesiger Datenmengen. "Das Verstehen dieser großen Datenmengen erfordert innovative Tools und Technologien, die in der Lage sind, nützliches Wissen aus umfangreichen und vielfältigen Informationsströmen zu extrahieren", schrieben Tom Kalil und Fen Zhao vom Weißen Haus Office of Science and Technology Policy in einem Beitrag auf dem OSTP-Blog.
Das Weiße Haus machte einen Schritt, um den Behörden bei der Suche nach diesen Technologien zu helfen, als es 2012 die National Big Data Research and Development Initiative ins Leben rief. Die Initiative schloss mehr als 200 Millionen US-Dollar ein, um von dem Boom an Big Data und den dafür erforderlichen Analysetools optimalen Nutzen zu ziehen.
Die Herausforderungen, die Big Data mit sich bringt, sind fast genauso bedeutsam wie seine vielversprechenden Aussichten. Eine effiziente Datenspeicherung ist eine dieser Herausforderungen. Budgets sind wie immer knapp, daher müssen Behörden den Speicherpreis pro Megabyte minimieren und die Daten leicht zugänglich halten, damit Benutzer sie erhalten können, wann und wie sie es benötigen. Das Sichern riesiger Datenmengen vergrößert die Herausforderung.
Die effektive Analyse der Daten ist eine weitere wichtige Herausforderung. Viele Behörden setzen kommerzielle Tools ein, die es ihnen ermöglichen, sich durch Berge von Daten zu wühlen und Trends zu erkennen, die ihnen helfen, effizienter zu operieren. (Eine kürzliche Studie von MeriTalk ergab, dass federale IT-Manager der Meinung sind, Big Data könne Behörden mehr als 500 Milliarden US-Dollar sparen und dabei den Erreichung der Aufgabenziele unterstützen.).
Eigens entwickelte Big Data Tools ermöglichen es auch Behörden, ihre Daten zu analysieren. Zum Beispiel macht die Computational Data Analytics Group des Oak Ridge National Laboratory ihr Piranha-Datenaufbereitungs-System anderen Behörden zur Verfügung. Das System hat Medizinforschern geholfen, einen Zusammenhang zu finden, der Ärzte vor aortenaneurysmen warnen kann, bevor sie auftreten. Es wird auch für alltägliche Aufgaben wie die Durchsicht von Lebensläufen eingesetzt, um Bewerber mit Personalverantwortlichen zu verbinden.
Hadoop für Administratoren
21 StundenApache Hadoop ist das beliebteste Framework für die Verarbeitung von Big Data auf Serverclusters. In diesem drei- (optional vier-) Tageskurs lernen Teilnehmer über den Geschäftsvorteile und Einsatzmöglichkeiten von Hadoop und seinem Ökosystem, wie man einen Cluster bereitstellt und ausbaut, wie man Hadoop installiert, betreibt, überwacht, Fehler behebt und optimiert. Sie werden auch die Massendaten-Import in Clusters praktizieren, verschiedene Verteilungen von Hadoop kennen lernen und die Installation und Verwaltung von Tools des Hadoop-Ökosystems üben. Der Kurs endet mit einer Diskussion über das Schützen des Clusters mit Kerberos.
“…Die Materialien waren sehr gut vorbereitet und detailliert abgedeckt. Das Labor war sehr hilfreich und gut organisiert”— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Zielgruppe
Hadoop-Administratoren
Format
Vorlesungen und praktische Labore, ungefährer Teilungsgrad 60% Vorlesungen, 40% Labore.
Apache NiFi für Administratorinnen und Administratorinnen
21 StundenApache NiFi ist eine Open-Source-Plattform für flussbasierte Datenintegration und Ereignisverarbeitung. Sie ermöglicht die automatisierte, in Echtzeit stattfindende Datenrouting-, Transformations- und Systemvermittlungsfunktionen zwischen unterschiedlichen Systemen mit einer webbasierten Benutzeroberfläche und feingranularen Kontrollmöglichkeiten.
Dieses vom Trainer geleitete, live Training (vor Ort oder remote) richtet sich an fortgeschrittene Administratoren und Ingenieure, die NiFi-Datenflüsse in Produktionsumgebungen bereitstellen, verwalten, schützen und optimieren möchten.
Zum Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Apache NiFi-Clusters zu installieren, zu konfigurieren und zuwartenden.
- Datenflüsse von verschiedenen Quellen und Senken zu planen und zu verwalten.
- Flussautomatisierung, Routing und Transformationslogik umzusetzen.
- Die Leistung zu optimieren, Operationen zu überwachen und Probleme zu beheben.
Kursformat
- Interaktive Vorlesung mit Diskussion realer Architekturen.
- Praktische Übungen: Erstellen, Bereitstellen und Verwalten von Flüssen.
- Szenario-basierte Aufgaben in einer Live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs kontaktieren Sie uns, um einen Termin zu vereinbaren.
Apache NiFi für Entwickler
7 StundenIn dieser Live-Schulung unter Anleitung in Österreich lernen die Teilnehmer die Grundlagen der ablaufbasierten Programmierung, während sie eine Reihe von Demo-Erweiterungen, Komponenten und Prozessoren mit Apache NiFi entwickeln.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Die Architektur von NiFi und Datenflusskonzepte zu verstehen.
- Erweiterungen mit NiFi und APIs von Drittanbietern zu entwickeln.
- Ihren eigenen Apache-NiFi-Prozessor zu entwickeln.
- Echtzeitdaten aus unterschiedlichen und ungewöhnlichen Dateiformaten und Datenquellen einlesen und verarbeiten.
PySpark und Machine Learning
21 StundenDiese Schulung bietet eine praxisorientierte Einführung in den Aufbau skalierbarer Datenverarbeitungs- und Machine-Learning-Workflows mit PySpark. Die Teilnehmenden lernen, wie Apache Spark in modernen Big-Data-Ökosystemen funktioniert und wie große Datensätze mithilfe verteilter Rechenprinzipien effizient verarbeitet werden können.
Grundlagen von Apache Spark
21 StundenDieses von einem Dozenten geleitete Live-Training in Österreich (online oder vor Ort) richtet sich an Ingenieure, die Apache Spark-System zur Verarbeitung sehr großer Datenmengen einrichten und bereitstellen möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Apache Spark zu installieren und zu konfigurieren.
- Sehr große Datensätze schnell zu verarbeiten und zu analysieren.
- Den Unterschied zwischen Apache Spark und Hadoop MapReduce zu verstehen und zu wissen, wann welches System verwendet werden sollte.
- Apache Spark mit anderen maschinellen Lernwerkzeugen zu integrieren.
Administration von Apache Spark
35 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Anfänger bis fortgeschrittene Systemadministratoren, die Spark-Cluster einsetzen, warten und optimieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Installieren und konfigurieren Sie Apache Spark in verschiedenen Umgebungen.
- Cluster-Ressourcen zu verwalten und Spark-Anwendungen zu überwachen.
- Die Leistung von Spark-Clustern zu optimieren.
- Sicherheitsmaßnahmen zu implementieren und Hochverfügbarkeit zu gewährleisten.
- Allgemeine Spark-Probleme zu debuggen und zu beheben.
Apache Spark in der Cloud
21 StundenDie Lernkurve von Apache Spark steigt am Anfang langsam an, es bedarf viel Mühe, um den ersten Erfolg zu erzielen. Dieses Kursziel ist es, den ersten schwierigen Teil zu überwinden. Nachdem die Teilnehmer diesen Kurs absolviert haben, verstehen sie die Grundlagen von Apache Spark, sie können RDD und DataFrame klar voneinander abgrenzen, sie lernen die Python- und Scala-APIs, sie verstehen Executoren und Tasks usw. Auch indem es sich an beste Praktiken orientiert, konzentriert sich dieser Kurs stark auf die Cloudbereitstellung, insbesondere auf Databricks und AWS. Die Teilnehmer werden auch die Unterschiede zwischen AWS EMR und AWS Glue verstehen, einem der neuesten Spark-Dienste von AWS.
ZIELGRUPPE:
Data Engineer, DevOps, Data Scientist
Python und Spark für Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Python, Spark und Hadoop für Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.
Apache Spark SQL
7 StundenSpark SQL ist das Modul von Apache Spark, mit dem strukturierte und unstrukturierte Daten verarbeitet werden. Spark SQL bietet Informationen über die Struktur der Daten sowie über die durchgeführte Berechnung. Diese Informationen können zur Optimierung verwendet werden. Zwei häufige Anwendungen von Spark SQL sind:
- die Ausführung von SQL-Abfragen.
- das Lesen von Daten aus einer bestehenden Hive-Installation.
In diesem von einem Trainer geleiteten, live-Schulung (vor Ort oder Remote) lernen die Teilnehmer, verschiedene Arten von Datensätzen mit Spark SQL zu analysieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Spark SQL zu installieren und zu konfigurieren.
- Datenanalyse mit Spark SQL durchzuführen.
- Datensätze in verschiedenen Formaten abzufragen.
- Daten und Abfrageergebnisse zu visualisieren.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxisübungen.
- Praktische Umsetzung in einer live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs wenden Sie sich bitte an uns, um die Anforderungen zu besprechen.
Stratio: Rocket- und Intelligence-Module mit PySpark
14 StundenStratio ist eine datenzentrierte Plattform, die Big Data, KI und Governance in einer einzigen Lösung integriert. Die Rocket- und Intelligence-Module ermöglichen eine schnelle Datenauswertung, -transformation und fortgeschrittene Analysen in Unternehmensumgebungen.
Diese von einem Dozenten geleitete Live-Schulung (online oder vor Ort) richtet sich an datenzentrierte Fachkräfte mittlerer Qualifikation, die lernen möchten, die Rocket- und Intelligence-Module in Stratio effektiv mit PySpark zu nutzen. Der Fokus liegt auf Schleifenstrukturen, benutzerdefinierten Funktionen und fortgeschrittenen Datenlogiken.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Sich innerhalb der Stratio-Plattform mit den Rocket- und Intelligence-Modulen zu orientieren und darin zu arbeiten.
- PySpark im Kontext von Datenaufnahme, -transformation und -analyse anzuwenden.
- Schleifen und bedingte Logiken zur Steuerung von Datenworkflows und Feature-Engineering-Aufgaben zu verwenden.
- Benutzerdefinierte Funktionen (UDFs) für wiederverwendbare Datenoperationen in PySpark zu erstellen und zu verwalten.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxisbeispiele.
- Hands-on-Implementierung in einer Live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs, kontaktieren Sie uns bitte zur Terminfindung.