Schulungsübersicht

1: HDFS (17%)

  • Beschreiben Sie die Funktion von HDFS Daemons
  • Beschreiben Sie den normalen Betrieb eines Apache Hadoop-Clusters, sowohl bei der Datenspeicherung als auch bei der Datenverarbeitung.
  • Identifizieren Sie aktuelle Merkmale von Computersystemen, die ein System wie Apache Hadoop motivieren.
  • Klassifizierung der Hauptziele des HDFS-Designs
  • In einem gegebenen Szenario einen geeigneten Anwendungsfall für HDFS Federation identifizieren
  • Komponenten und Daemon eines HDFS HA-Quorum-Clusters zu identifizieren
  • Analysieren Sie die Rolle der HDFS-Sicherheit (Kerberos)
  • Bestimmen der besten Datenserialisierung für ein gegebenes Szenario
  • Beschreiben der Lese- und Schreibpfade für Dateien
  • Identifizieren der Befehle zur Bearbeitung von Dateien in der Hadoop File System Shell

2: YARN und MapReduce Version 2 (MRv2) (17%)

  • Verstehen, wie das Upgrade eines Clusters von Hadoop 1 auf Hadoop 2 die Cluster-Einstellungen beeinflusst
  • Verstehen, wie man MapReduce v2 (MRv2 / YARN) einsetzt, einschließlich aller YARN-Dämonen
  • Verständnis der grundlegenden Entwurfsstrategie für MapReduce v2 (MRv2)
  • Feststellen, wie YARN Ressourcenzuweisungen handhabt
  • Identifizierung des Arbeitsablaufs von MapReduce-Jobs, die auf YARN laufen
  • Feststellen, welche Dateien wie geändert werden müssen, um einen Cluster von MapReduce Version 1 (MRv1) auf MapReduce Version 2 (MRv2) unter YARN zu migrieren.

3: Hadoop Cluster-Planung (16%)

  • Die wichtigsten Punkte, die bei der Auswahl der Hardware und des Betriebssystems für den Betrieb eines Apache Hadoop-Clusters zu berücksichtigen sind.
  • Analysieren Sie die Möglichkeiten bei der Auswahl eines Betriebssystems
  • Kernel-Tuning und Festplatten-Swapping zu verstehen
  • Anhand eines Szenarios und eines Arbeitslastmusters eine für das Szenario geeignete Hardwarekonfiguration identifizieren
  • Bestimmen Sie anhand eines Szenarios die Ökosystemkomponenten, die Ihr Cluster ausführen muss, um das SLA zu erfüllen.
  • Cluster-Dimensionierung: Ermitteln Sie anhand eines Szenarios und der Ausführungshäufigkeit die spezifischen Anforderungen an die Arbeitslast, einschließlich CPU, Arbeitsspeicher, Speicher, Festplatten-E/A
  • Festplattendimensionierung und -konfiguration, einschließlich JBOD gegenüber RAID, SANs, Virtualisierung und Anforderungen an die Festplattendimensionierung in einem Cluster
  • Netzwerktopologien: Verstehen der Netzwerknutzung in Hadoop (sowohl für HDFS als auch für MapReduce) und Vorschlagen oder Identifizieren der wichtigsten Netzwerkdesignkomponenten für ein bestimmtes Szenario

4: Hadoop Cluster-Installation und -Verwaltung (25%)

  • Identifizieren Sie anhand eines Szenarios, wie der Cluster mit Festplatten- und Maschinenausfällen umgehen wird
  • Analysieren einer Protokollierungskonfiguration und eines Protokollierungskonfigurationsdateiformats
  • Verstehen der Grundlagen der Hadoop-Metriken und der Überwachung des Clusterzustands
  • Funktion und Zweck der verfügbaren Tools für die Cluster-Überwachung zu erkennen
  • In der Lage sein, alle Ökosystemkomponenten in CDH 5 zu installieren, einschließlich (aber nicht beschränkt auf): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, und Pig
  • Funktion und Zweck der verfügbaren Tools zur Verwaltung des Apache Hadoop-Dateisystems zu identifizieren

5: Ressourcen Management (10%)

  • Verstehen der allgemeinen Designziele jedes Hadoop-Schedulers
  • Bestimmen Sie anhand eines Szenarios, wie der FIFO-Scheduler die Cluster-Ressourcen zuweist
  • Bestimmen Sie anhand eines Szenarios, wie der Fair Scheduler die Cluster-Ressourcen unter YARN zuweist.
  • Bestimmen Sie anhand eines Szenarios, wie der Capacity Scheduler Cluster-Ressourcen zuteilt.

6: Überwachung und Protokollierung (15%)

  • Verstehen Sie die Funktionen und Eigenschaften der Hadoop-Metriksammlung
  • Analysieren der NameNode und JobTracker Web UIs
  • Verstehen, wie man Cluster-Daemons überwacht
  • Identifizieren und Überwachen der CPU-Auslastung auf Master-Knoten
  • Beschreiben, wie man die Swap- und Speicherzuweisung auf allen Knoten überwacht
  • Erkennen, wie man die Protokolldateien von Hadoop anzeigt und verwaltet
  • Eine Protokolldatei interpretieren

Voraussetzungen

  • Grundlegende Linux Verwaltungskenntnisse
  • Grundlegende Programmierkenntnisse
  35 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

Erfahrungsberichte (3)

Kombinierte Kurse

Verwandte Kategorien