Schulungsübersicht

Sektion 1: Einführung in Hadoop

  • Hadoop-Geschichte, Konzepte
  • Eco-System
  • Distributionen
  • Hohe Schichtenarchitektur
  • Hadoop-Mythen
  • Hadoop-Herausforderungen
  • Hardware / Software
  • Lab: Erste Einsicht in Hadoop

Sektion 2: HDFS

  • Gestaltung und Architektur
  • Konzepte (horizontale Skalierung, Replikation, Datennähe, Rack-Bewusstsein)
  • Daemon : Namenode, Secondary namenode, Data node
  • Kommunikation / Herzschlagmeldungen
  • Datenechtkeit
  • Lese-/Schreibpfad
  • Namenode High Availability (HA), Federation
  • Lab: Interaktion mit HDFS

Sektion 3 : Map Reduce

  • Konzepte und Architektur
  • Daemon (MRV1) : Jobtracker / Tasktracker
  • Phasen: Treiber, Mapper, Shuffle/Sort, Reducer
  • Map Reduce Version 1 und Version 2 (YARN)
  • Innere Funktionen von Map Reduce
  • Einführung in Java Map Reduce-Programmierung
  • Labor: Ausführen eines Beispiel-MapReduce-Programms

Sektion 4 : Pig

  • Pig vs Java Map Reduce
  • Ablauf des Pig-Jobs
  • Pig Latin-Sprache
  • ETL mit Pig
  • Transformationen und Joins
  • Nutzerdefinierte Funktionen (UDF)
  • Labor: Schreiben von Pig-Scripten zum Analyse von Daten

Sektion 5:Hive

  • Architektur und Design
  • Datentypen
  • SQL-Unterstützung in Hive
  • Erstellen von Hive-Tabellen und Abfragen
  • Aufteilungen
  • Joins
  • Textverarbeitung
  • Labor: Verschiedene Labore zur Verarbeitung von Daten mit Hive

Sektion 6: HBase

  • Konzepte und Architektur
  • HBase vs RDBMS vs Cassandra
  • HBase-Java API
  • Zeitreihendaten in HBase
  • Schemadesign
  • Labor: Interaktion mit HBase über Shell; Programmierung in HBase Java API; Schemadesign Übung

Voraussetzungen

  • geübt im Umgang mit der Java-Programmiersprache (die meisten Übungen sind in Java)
  • geübt in einer Linux-Umgebung (fähigkeit, die Linux-Befehlszeile zu navigieren und Dateien mit vi/nano zu bearbeiten)

Lab-Umgebung

Null-Install: Es ist nicht erforderlich, Hadoop-Software auf den Rechnern der Teilnehmer zu installieren! Ein funktionierender Hadoop-Cluster wird für die Teilnehmer bereitgestellt.

Die Teilnehmer benötigen Folgendes:

  • einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
  • einen Browser zum Zugriff auf den Cluster, Firefox ist empfohlen
 28 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien