Schulungsübersicht

Abschnitt 1: Data Management in HDFS

  • Verschiedene Datenformate (JSON / Avro / Parquet)
  • Komprimierungsschemata
  • Datenmaskierung
  • Übungen: Analysieren verschiedener Datenformate; Aktivieren der Kompression

Abschnitt 2: Fortgeschrittenes Pig

  • Benutzerdefinierte Funktionen
  • Einführung in Pig-Bibliotheken (ElephantBird / Data-Fu)
  • Laden komplexer strukturierter Daten mit Pig
  • Pig-Abstimmung
  • Übungen: Fortgeschrittenes Pig Scripting, Parsen komplexer Datentypen

Abschnitt 3 : Fortgeschrittene Hive

  • Benutzerdefinierte Funktionen
  • Komprimierte Tabellen
  • Hive Leistungsoptimierung
  • Übungen : Erstellung komprimierter Tabellen, Auswertung von Tabellenformaten und Konfiguration

Abschnitt 4: HBase für Fortgeschrittene

  • Fortgeschrittene Schemamodellierung
  • Komprimierung
  • Bulk Data Ingest
  • Vergleich zwischen Wide-Table und Tall-Table
  • HBase und Pig
  • HBase und Hive
  • HBase-Leistungsoptimierung
  • Übungen: Tuning von HBase; Zugriff auf HBase-Daten von Pig & Hive; Verwendung von Phoenix für die Datenmodellierung

Voraussetzungen

  • gute Kenntnisse der Java Programmiersprache (die meisten Programmierübungen sind in Java)
  • Vertrautheit mit der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren und Dateien mit vi / nano zu bearbeiten)
  • gute Kenntnisse von Hadoop.

Laborumgebung

Null-Installation: Es besteht keine Notwendigkeit, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Studierenden zur Verfügung gestellt.

Die Studierenden benötigen Folgendes

  • einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
  • einen Browser für den Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser
 21 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien