Schulungsübersicht
Abschnitt 1: Einführung in Hadoop
- Hadoop-Geschichte, Konzepte
- Ökosystem
- Distributionen
- High-Level-Architektur
- Hadoop-Mythen
- hadoop-herausforderungen
- Hardware/Software
- labor: erster blick auf Hadoop
Abschnitt 2: HDFS
- Entwurf und Architektur
- Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
- Daemons : Namensknoten, sekundärer Namensknoten, Datenknoten
- Kommunikation / Heartbeats
- Datenintegrität
- Lese-/Schreibpfad
- Namenode Hochverfügbarkeit (HA), Föderation
- Praktika : Interaktion mit HDFS
Abschnitt 3 : Map Reduce
- Konzepte und Architektur
- Daemonen (MRV1) : Jobtracker / Tasktracker
- Phasen : Treiber, Mapper, Shuffle/Sort, Reducer
- Map Reduce Version 1 und Version 2 (YARN)
- Interna von Map Reduce
- Einführung in Java Map Reduce Programm
- Übungen : Ausführen eines MapReduce-Beispielprogramms
Abschnitt 4 : Pig
- pig vs java map reduce
- pig job flow
- Pig lateinische Sprache
- ETL mit Schwein
- Transformationen und Verknüpfungen
- Benutzerdefinierte Funktionen (UDF)
- Übungen: Schreiben von Pig-Skripten zur Analyse von Daten
Abschnitt 5: Hive
- Architektur und Design
- Datentypen
- SQL Unterstützung in Hive
- Erstellen von Hive Tabellen und Abfragen
- Partitionen
- Verknüpfungen
- Textverarbeitung
- Übungen: verschiedene Übungen zur Datenverarbeitung mit Hive
Abschnitt 6: HBase
- Konzepte und Architektur
- hbase vs RDBMS vs cassandra
- HBase Java API
- Zeitreihendaten auf HBase
- Schema-Entwurf
- Übungen: Interaktion mit HBase mit Hilfe der Shell; Programmierung in HBase Java API; Übung zum Schemaentwurf
Voraussetzungen
- Kenntnis der Programmiersprache Java (die meisten Programmierübungen werden in Java durchgeführt)
- Kenntnis der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren, Dateien mit vi / nano zu bearbeiten)
Lab-Umgebung
Zero Install : Es ist nicht notwendig, Hadoop-Software auf den Rechnern der Studenten zu installieren! Ein funktionierender Hadoop-Cluster wird den Studierenden zur Verfügung gestellt.
Die Studierenden benötigen Folgendes
- ein SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser für den Zugriff auf den Cluster. Wir empfehlen Firefox Browser
Erfahrungsberichte (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Kurs - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Kurs - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Kurs - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay