Schulungsübersicht
Sektion 1: Einführung in Hadoop
- Hadoop-Geschichte, Konzepte
- Eco-System
- Distributionen
- Hohe Schichtenarchitektur
- Hadoop-Mythen
- Hadoop-Herausforderungen
- Hardware / Software
- Lab: Erste Einsicht in Hadoop
Sektion 2: HDFS
- Gestaltung und Architektur
- Konzepte (horizontale Skalierung, Replikation, Datennähe, Rack-Bewusstsein)
- Daemon : Namenode, Secondary namenode, Data node
- Kommunikation / Herzschlagmeldungen
- Datenechtkeit
- Lese-/Schreibpfad
- Namenode High Availability (HA), Federation
- Lab: Interaktion mit HDFS
Sektion 3 : Map Reduce
- Konzepte und Architektur
- Daemon (MRV1) : Jobtracker / Tasktracker
- Phasen: Treiber, Mapper, Shuffle/Sort, Reducer
- Map Reduce Version 1 und Version 2 (YARN)
- Innere Funktionen von Map Reduce
- Einführung in Java Map Reduce-Programmierung
- Labor: Ausführen eines Beispiel-MapReduce-Programms
Sektion 4 : Pig
- Pig vs Java Map Reduce
- Ablauf des Pig-Jobs
- Pig Latin-Sprache
- ETL mit Pig
- Transformationen und Joins
- Nutzerdefinierte Funktionen (UDF)
- Labor: Schreiben von Pig-Scripten zum Analyse von Daten
Sektion 5:Hive
- Architektur und Design
- Datentypen
- SQL-Unterstützung in Hive
- Erstellen von Hive-Tabellen und Abfragen
- Aufteilungen
- Joins
- Textverarbeitung
- Labor: Verschiedene Labore zur Verarbeitung von Daten mit Hive
Sektion 6: HBase
- Konzepte und Architektur
- HBase vs RDBMS vs Cassandra
- HBase-Java API
- Zeitreihendaten in HBase
- Schemadesign
- Labor: Interaktion mit HBase über Shell; Programmierung in HBase Java API; Schemadesign Übung
Voraussetzungen
- geübt im Umgang mit der Java-Programmiersprache (die meisten Übungen sind in Java)
- geübt in einer Linux-Umgebung (fähigkeit, die Linux-Befehlszeile zu navigieren und Dateien mit vi/nano zu bearbeiten)
Lab-Umgebung
Null-Install: Es ist nicht erforderlich, Hadoop-Software auf den Rechnern der Teilnehmer zu installieren! Ein funktionierender Hadoop-Cluster wird für die Teilnehmer bereitgestellt.
Die Teilnehmer benötigen Folgendes:
- einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser zum Zugriff auf den Cluster, Firefox ist empfohlen
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung