Schulungsübersicht

Jede Sitzung dauert 2 Stunden

Tag-1: Sitzung -1: Business Überblick über das Warum Big Data Business Intelligenz in Govt.

  • Fallstudien von NIH, DoE
  • Big Data Anpassungsrate in Govt. Agencies & und wie sie ihren zukünftigen Betrieb darauf ausrichten Big Data Predictive Analytics
  • Breit angelegter Anwendungsbereich in DoD, NSA, IRS, USDA usw.
  • Verknüpfung von Big Data mit Altdaten
  • Grundlegendes Verständnis der Grundlagentechnologien der prädiktiven Analytik
  • Data Integration & Dashboard-Visualisierung
  • Betrugsmanagement
  • Business Generierung von Regeln/Betrugserkennung
  • Erkennung von Bedrohungen und Erstellung von Profilen
  • Kosten-Nutzen-Analyse für die Big Data-Implementierung

Tag-1: Sitzung-2: Einführung in Big Data-1

  • Hauptmerkmale von Big Data-Volumen, Vielfalt, Schnelligkeit und Wahrhaftigkeit. MPP-Architektur für Volumen.
  • Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
  • MPP Databases wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
  • Hadoop-basierte Lösungen - keine Bedingungen an die Struktur der Datenmenge.
  • Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
  • Batch- geeignet für analytische/nicht interaktive
  • Volumen: CEP-Streaming-Daten
  • Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
  • Weniger produktionstauglich - Storm/S4
  • NoSQL Databases - (spaltenförmig und Key-Value): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank

Tag-1 : Sitzung -3 : Einführung in Big Data-2

NoSQL Lösungen

  • KV-Speicher - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV-Speicher - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV-Speicher (Hierarchisch) - GT.m, Cache
  • KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tupel-Speicher - Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Shoal
  • Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Breiter spaltenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Arten von Daten: Einführung in Data Cleaning Thema in Big Data

  • RDBMS - statische Struktur/Schema, fördert nicht die agile, explorative Umgebung.
  • NoSQL - halbstrukturiert, genügend Struktur zum Speichern von Daten ohne genaues Schema vor dem Speichern der Daten
  • Fragen der Datenbereinigung

Tag-1 : Sitzung-4 : Big Data Einführung-3 : Hadoop

  • Wann sollte man Hadoop wählen?
  • STRUKTURIERT - Data-Warehouses/Datenbanken für Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
  • SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
  • Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
  • Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
  • Commodity-Hardware erforderlich, um einen Hadoop Cluster zu erstellen

Einführung in MapReduce /HDFS

  • MapReduce - Verteilen der Datenverarbeitung auf mehrere Server
  • HDFS - stellt Daten lokal für den Rechenprozess zur Verfügung (mit Redundanz)
  • Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
  • Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
  • Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS

Tag-2: Sitzung-1: Big Data Aufbau eines Ökosystems Big Data ETL: Universum von Big Data Tools - welches sollte man wann verwenden?

  • Hadoop vs. andere NoSQL Lösungen
  • Für interaktiven, wahlfreien Zugriff auf Daten
  • Hbase (spaltenorientierte Datenbank) auf Basis von Hadoop
  • Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
  • Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
  • Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
  • Flume - Streaming von Daten (z.B. Protokolldaten) in HDFS

Tag-2: Sitzung-2: Big Data Management System

  • Bewegliche Teile, Rechenknoten starten/fallen aus :ZooKeeper - Für Konfiguration/Koordination/Benennungsdienste
  • Komplexe Pipeline/Workflow: Oozie - Verwaltung von Arbeitsabläufen, Abhängigkeiten, Daisy Chain
  • Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
  • In der Cloud: Whirr

Tag-2: Sitzung-3: Prädiktive Analytik in Business Intelligence -1: Grundlegende Techniken und auf maschinellem Lernen basierende BI :

  • Einführung in maschinelles Lernen
  • Klassifizierungstechniken lernen
  • Bayessche Vorhersage - Vorbereitung der Trainingsdatei
  • Support-Vektor-Maschine
  • KNN p-Tree Algebra & vertikales Mining
  • Neuronales Netzwerk
  • Big Data Problem der großen Variablen -Random Forest (RF)
  • Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
  • Automatisierung durch Soft10-M
  • Textanalytisches Werkzeug - Treeminer
  • Agile Lernen
  • Agentenbasiertes Lernen
  • Verteiltes Lernen
  • Einführung in Open-Source-Tools für prädiktive Analysen: R, Rapidminer, Mahut

Tag-2: Sitzung-4 Prädiktive Analytik-Ökosystem-2: Gemeinsame prädiktive analytische Probleme in Govt.

  • Einsicht-Analytik
  • Analytische Visualisierung
  • Strukturierte prädiktive Analytik
  • Unstrukturierte prädiktive Analytik
  • Bedrohungs-/Betrugsanalyse/Anbieterprofilierung
  • Empfehlungsmaschine
  • Erkennung von Mustern
  • Erkennung von Regeln/Szenarien - Fehler, Betrug, Optimierung
  • Entdeckung der Grundursache
  • Sentiment-Analyse
  • CRM-Analytik
  • Netzwerk-Analytik
  • Text-Analyse
  • Technologiegestützte Überprüfung
  • Betrugsanalytik
  • Echtzeit-Analytik

Tag 3: Sitzung 1: Echtzeit- und Scalable-Analytik über Hadoop

  • Warum gängige analytische Algorithmen in Hadoop/HDFS versagen
  • Apache Hama- für Bulk-Synchronous Distributed Computing
  • Apache SPARK- für Cluster-Computing für Echtzeit-Analytik
  • CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
  • KNN p-Algebra basierter Ansatz von Treeminer für reduzierte Hardwarebetriebskosten

Tag-3: Sitzung-2: Werkzeuge für eDiscovery und Forensik

  • eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
  • Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
  • Live-Demo eines Tar-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Entdeckung funktioniert
  • Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
  • NLP oder Natural Language Processing - verschiedene Techniken und Open-Source-Produkte
  • eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung

Tag 3: Sitzung 3: Big Data BI für Cyber Security -Verständnis dergesamten 360-Grad-Sicht von der schnellen Datenerfassung bis zur Identifizierung von Bedrohungen

  • Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, falsche Sicherheitskonfiguration, Host-Verteidigung
  • Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analysen
  • Prädiktiv vs. prädiktiv - Festgelegte Regeln vs. automatische Entdeckung von Bedrohungsregeln aus Metadaten

Tag 3: Sitzung 4: Big Data in USDA : Anwendung in der Landwirtschaft

  • Einführung in das IoT (Internet der Dinge) für die Landwirtschaft - sensorgestützt Big Data und Kontrolle
  • Einführung in die Satellitenbildtechnik und ihre Anwendung in der Landwirtschaft
  • Integration von Sensor- und Bilddaten für Bodenfruchtbarkeit, Anbauempfehlungen und Prognosen
  • Landwirtschaftliche Versicherungen und Big Data
  • Vorhersage von Ernteverlusten

Tag 4: Sitzung 1: Betrugsprävention BI von Big Data in Govt-Betrugsanalytik:

  • Grundlegende Klassifizierung der Betrugsanalyse - regelbasierte vs. prädiktive Analyse
  • Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
  • Lieferantenbetrug/Überfakturierung für Projekte
  • Medicare- und Medicaid-Betrug - Betrugserkennungstechniken für die Bearbeitung von Anträgen
  • Reisekostenerstattungsbetrug
  • IRS-Erstattungsbetrug
  • Fallstudien und Live-Demos werden überall dort gezeigt, wo Daten verfügbar sind.

Tag 4: Sitzung 2: Social Media Analytik - Sammlung und Analyse von Informationen

  • Big Data ETL-API für die Extraktion von Social-Media-Daten
  • Text, Bild, Metadaten und Video
  • Stimmungsanalyse aus Social Media Feeds
  • Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
  • Social Media Dashboard zur Integration verschiedener sozialer Medien
  • Automatisierte Profilerstellung von Social Media Profilen
  • Eine Live-Demonstration der einzelnen Analyseverfahren wird mit dem Treeminer Tool durchgeführt.

Tag 4: Sitzung 3: Big Data Analytik in der Bildverarbeitung und Video-Feeds

  • Bildspeichertechniken in Big Data- Speicherlösung für Daten im Petabyte-Bereich
  • LTFS und LTO
  • GPFS-LTFS (mehrschichtige Speicherlösung für große Bilddaten)
  • Grundlagen der Bildanalytik
  • Objekterkennung
  • Segmentierung von Bildern
  • Bewegungsverfolgung
  • 3-D-Bildrekonstruktion

Tag 4: Sitzung 4: Big Data-Anwendungen im NIH:

  • Aufkommende Bereiche der Bio-Informatik
  • Meta-Genomik und Big Data-Mining-Probleme
  • Big Data Prädiktive Analytik für Pharmakogenomik, Metabolomik und Proteomik
  • Big Data im nachgelagerten Genomik-Prozess
  • Anwendung der prädiktiven Analytik von Big Data in der öffentlichen Gesundheit

Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Darstellung:

  • Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
  • Big Data Verwaltung
  • Fallstudie zu Big Data Dashboard: Tableau und Pentaho
  • Verwendung der Big Data-App für standortbezogene Dienste in Govt.
  • Tracking-System und Verwaltung

Tag 5: Sitzung 1: Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?

  • Definition des ROI für die Big Data-Implementierung
  • Fallstudien zur Einsparung von Analystenzeit für das Sammeln und Aufbereiten von Daten - Steigerung der Produktivität
  • Fallstudien zu Umsatzsteigerungen durch Einsparungen bei den Kosten für lizenzierte Datenbanken
  • Einnahmegewinn durch standortbezogene Dienste
  • Einsparungen durch Betrugsprävention
  • Ein integrierter Tabellenkalkulationsansatz zur Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen aus der Big Data Implementierung.

Tag 5: Sitzung-2: Schritt-für-Schritt-Verfahren zur Ersetzung eines alten Datensystems durch ein Big Data-System:

  • Verstehen des praktischen Big Data-Migrationsfahrplans
  • Welches sind die wichtigen Informationen, die vor der Planung einer Big Data-Implementierung benötigt werden?
  • Welches sind die verschiedenen Methoden zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
  • Wie man das Datenwachstum abschätzen kann
  • Fallstudien

Tag 5: Sitzung 4: Überblick über die Big Data-Anbieter und ihre Produkte. Q/A-Sitzung:

  • Accenture
  • APTEAN (ehemals CDC Software)
  • Cisco Systeme
  • Cloudera
  • Dell
  • EMC
  • GoodData Gesellschaft
  • Guavus
  • Hitachi Datensysteme
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (ehemals 10Gen)
  • MU Sigma
  • Netapp
  • Opera-Lösungen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytik
  • Salesforce
  • SAP
  • SAS Institut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automatisierung
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytik
  • Tidemark-Systeme
  • Treeminer
  • VMware (Teil von EMC)

Voraussetzungen

  • Grundkenntnisse der Geschäftsabläufe und Datensysteme in der Regierung in ihrem Bereich
  • Grundlegende Kenntnisse von SQL/Oracle oder relationalen Datenbanken
  • Grundkenntnisse von Statistics (auf Tabellenkalkulationsniveau) 
  35 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

Erfahrungsberichte (4)

Kombinierte Kurse

Verwandte Kategorien