Schulungsübersicht
Abschnitt 1: Einführung in Hadoop
- Geschichte, Konzepte von Hadoop
- Ökosystem
- Distributionen
- Hochrangige Architektur
- Hadoop-Mythen
- Hadoop-Herausforderungen
- Hardware/Software
- Praktische Übung: Erste Schritte mit Hadoop
Abschnitt 2: HDFS
- Design und Architektur
- Konzepte (horizontales Skalieren, Replikation, Datenlokalität, Rack-Bewusstsein)
- Dienste: Namenode, Secondary Namenode, Datanode
- Kommunikation/Heartbeats
- Datenintegrität
- Lesen/Schreiben-Pfad
- Namenode High Availability (HA), Federation
- Praktische Übung: Interaktion mit HDFS
Abschnitt 3: MapReduce
- Konzepte und Architektur
- Dienste (MRV1): Jobtracker, Tasktracker
- Phasen: Driver, Mapper, Shuffle/Sort, Reducer
- MapReduce Version 1 und Version 2 (YARN)
- Interne Abläufe von MapReduce
- Einführung in Java-MapReduce-Programmierung
- Praktische Übung: Ausführen eines Beispiel-MapReduce-Programms
Abschnitt 4: Pig
- Pig vs. Java MapReduce
- Pig-Jobfluss
- Pig Latin Sprache
- ETL mit Pig
- Transformationen & Join-Vorgänge
- User Defined Functions (UDF)
- Praktische Übung: Schreiben von Pig-Skripten zur Datenanalyse
Abschnitt 5: Hive
- Architektur und Design
- Datentypen
- SQL-Unterstützung in Hive
- Erstellen von Hive-Tabellen und Abfragen
- Partitionierung
- Join-Vorgänge
- Textverarbeitung
- Praktische Übung: Verschiedene praktische Übungen zur Datenverarbeitung mit Hive
Abschnitt 6: HBase
- Konzepte und Architektur
- HBase vs. RDBMS vs. Cassandra
- HBase Java API
- Zeitreihendaten in HBase
- Schemadesign
- Praktische Übung: Interaktion mit HBase über die Shell, Programmierung in der HBase Java API, Schemadesign-Übung
Voraussetzungen
- sich mit der Java-Programmiersprache wohlfühlen (die meisten Programmierübungen werden in Java durchgeführt)
- sich im Linux-Umfeld zurechtfinden können (in der Lage sein, die Linux-Befehlszeile zu navigieren und Dateien mit vi/nano zu bearbeiten)
Laborumgebung
Null-Installation: Es ist nicht notwendig, Hadoop-Software auf den Rechnern der Teilnehmer zu installieren! Ein funktionierender Hadoop-Cluster wird für die Teilnehmer bereitgestellt.
Die Teilnehmer benötigen folgendes:
- ein SSH-Client (Linux und Mac verfügen bereits über SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser zur Zugriff auf den Cluster, Firefox wird empfohlen
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung
Die VM, die mir sehr gut gefallen hat Der Lehrer war sehr kenntnisreich sowohl zum Thema als auch zu anderen Themen, er war sehr nett und freundlich Mir hat die Einrichtung in Dubai sehr gut gefallen.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
Maschinelle Übersetzung