Schulungsübersicht

Abschnitt 1: Einführung in Hadoop

  • Geschichte, Konzepte von Hadoop
  • Ökosystem
  • Distributionen
  • Hochrangige Architektur
  • Hadoop-Mythen
  • Hadoop-Herausforderungen
  • Hardware/Software
  • Praktische Übung: Erste Schritte mit Hadoop

Abschnitt 2: HDFS

  • Design und Architektur
  • Konzepte (horizontales Skalieren, Replikation, Datenlokalität, Rack-Bewusstsein)
  • Dienste: Namenode, Secondary Namenode, Datanode
  • Kommunikation/Heartbeats
  • Datenintegrität
  • Lesen/Schreiben-Pfad
  • Namenode High Availability (HA), Federation
  • Praktische Übung: Interaktion mit HDFS

Abschnitt 3: MapReduce

  • Konzepte und Architektur
  • Dienste (MRV1): Jobtracker, Tasktracker
  • Phasen: Driver, Mapper, Shuffle/Sort, Reducer
  • MapReduce Version 1 und Version 2 (YARN)
  • Interne Abläufe von MapReduce
  • Einführung in Java-MapReduce-Programmierung
  • Praktische Übung: Ausführen eines Beispiel-MapReduce-Programms

Abschnitt 4: Pig

  • Pig vs. Java MapReduce
  • Pig-Jobfluss
  • Pig Latin Sprache
  • ETL mit Pig
  • Transformationen & Join-Vorgänge
  • User Defined Functions (UDF)
  • Praktische Übung: Schreiben von Pig-Skripten zur Datenanalyse

Abschnitt 5: Hive

  • Architektur und Design
  • Datentypen
  • SQL-Unterstützung in Hive
  • Erstellen von Hive-Tabellen und Abfragen
  • Partitionierung
  • Join-Vorgänge
  • Textverarbeitung
  • Praktische Übung: Verschiedene praktische Übungen zur Datenverarbeitung mit Hive

Abschnitt 6: HBase

  • Konzepte und Architektur
  • HBase vs. RDBMS vs. Cassandra
  • HBase Java API
  • Zeitreihendaten in HBase
  • Schemadesign
  • Praktische Übung: Interaktion mit HBase über die Shell, Programmierung in der HBase Java API, Schemadesign-Übung

Voraussetzungen

  • sich mit der Java-Programmiersprache wohlfühlen (die meisten Programmierübungen werden in Java durchgeführt)
  • sich im Linux-Umfeld zurechtfinden können (in der Lage sein, die Linux-Befehlszeile zu navigieren und Dateien mit vi/nano zu bearbeiten)

Laborumgebung

Null-Installation: Es ist nicht notwendig, Hadoop-Software auf den Rechnern der Teilnehmer zu installieren! Ein funktionierender Hadoop-Cluster wird für die Teilnehmer bereitgestellt.

Die Teilnehmer benötigen folgendes:

  • ein SSH-Client (Linux und Mac verfügen bereits über SSH-Clients, für Windows wird Putty empfohlen)
  • einen Browser zur Zugriff auf den Cluster, Firefox wird empfohlen
 28 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien