Schulungsübersicht

Einführung in die Datenanalyse und Big Data

  • Was macht Big Data 'groß'?
    • Geschwindigkeit, Volumen, Vielfalt, Verlässlichkeit (VVVV)
  • Grenzen der traditionellen Datenverarbeitung
  • Verteilte Verarbeitung
  • Statistische Analyse
  • Arten der maschinellen Lernanalyse
  • Datenvisualisierung

Rollen und Verantwortlichkeiten in Big Data

  • Administratoren
  • Entwickler
  • Datenanalysten

Sprachen für die Datenanalyse

  • R-Sprache
    • Warum R für die Datenanalyse?
    • Datenmanipulation, Berechnung und grafische Darstellung
  • Python
    • Warum Python für die Datenanalyse?
    • Datenbearbeitung, -verarbeitung, -bereinigung und -analysierung

Ansätze zur Datenanalyse

  • Statistische Analyse
    • Zeitreihenanalyse
    • Vorhersage mit Korrelations- und Regressionsmodellen
    • Schließende Statistik (Schätzung)
    • Beschreibende Statistik in Big Data-Sets (z. B. Berechnung des Mittelwerts)
  • Maschinelles Lernen
    • Überwachtes vs. unüberwachtes Lernen
    • Klassifikation und Clustering
    • Kostenabschätzung für bestimmte Methoden
    • Filtrierung
  • Natural Language Processing (NLP)
    • Textverarbeitung
    • Bedeutungsanalyse von Texten
    • Automatische Textgenerierung
    • Sentiment- und Themenanalyse
  • Computer Vision
    • Aufnahme, Verarbeitung, Analyse und Interpretation von Bildern
    • Rekonstruktion, Interpretation und Verständnis von 3D-Szenen
    • Nutzung von Bilddaten zur Entscheidungsfindung

Big Data-Infrastruktur

  • Datenspeicher
    • Relationale Datenbanken (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Nicht-relationale Datenbanken (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • Verstehen der Nuancen
      • Hierarchische Datenbanken
      • Objektorientierte Datenbanken
      • Dokumentorientierte Datenbanken
      • Graphorientierte Datenbanken
      • Sonstige
  • Verteilte Verarbeitung
    • Hadoop
      • HDFS als verteiltes Dateisystem
      • MapReduce für verteilte Verarbeitung
    • Spark
      • Vollständige in-Memory-Cluster-Computing-Plattform für die Verarbeitung großer Datenmengen
      • Strukturierte Streaming
      • Spark SQL
      • Maschinelles Lernen: MLlib
      • Graphverarbeitung mit GraphX
  • Skalierbarkeit
    • Öffentliche Cloud
      • AWS, Google, Aliyun usw.
    • Private Cloud
      • OpenStack, Cloud Foundry usw.
    • Automatische Skalierung

Die richtige Lösung für das Problem wählen

Die Zukunft von Big Data

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Ein grundlegendes Verständnis von Mathematik
  • Ein grundlegendes Verständnis von Programmierung
  • Ein grundlegendes Verständnis von Datenbanken

Zielgruppe

  • Entwickler / Programmierer
  • IT-Berater
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (7)

Kommende Kurse

Verwandte Kategorien