Talend Big Data Integration Schulung
Talend Open Studio for Big Data ist ein quelloffenes ETL-Tool zur Verarbeitung von Big Data. Es umfasst eine Entwicklungsumgebung für die Interaktion mit Big-Data-Quellen und -Zielen sowie die Ausführung von Jobs ohne Code schreiben zu müssen.
Dieses instruktionsgeleitete, live durchgeführte Training (online oder vor Ort) richtet sich an technische Fachkräfte, die Talend Open Studio for Big Data einsetzen möchten, um den Prozess des Lesens und Verarbeitens von Big Data zu vereinfachen.
Am Ende dieses Trainings können die Teilnehmer:
- Talend Open Studio for Big Data installieren und konfigurieren.
- Mit Big-Data-Systemen wie Cloudera, HortonWorks, MapR, Amazon EMR und Apache verbinden.
- Die Big-Data-Komponenten und Konnektoren von Open Studio verstehen und einrichten.
- Parameter konfigurieren, um automatisch MapReduce-Code zu generieren.
- Die Drag-and-Drop-Schnittstelle von Open Studio nutzen, um Hadoop-Jobs auszuführen.
- Big-Data-Pipelines prototypisch erstellen.
- Big-Data-Integrationsprojekte automatisieren.
Form des Kurses
- Interaktive Vorträge und Diskussionen.
- Viele Übungen und praktische Anwendungen.
- Praktische Implementierung in einer Live-Lab-Umgebung.
Anpassungsoptionen für den Kurs
- Wenn Sie ein maßgeschneidertes Training für diesen Kurs wünschen, kontaktieren Sie uns bitte zur Vereinbarung.
Schulungsübersicht
Einführung
Übersicht über die Funktionen und Architektur von "Open Studio for Big Data"
Einrichtung von Open Studio for Big Data
Navigation in der Benutzeroberfläche
Verständnis der Big-Data-Komponenten und Connectors
Verbindung zu einem Hadoop-Cluster herstellen
Daten lesen und schreiben
Datenverarbeitung mit Hive und MapReduce
Analyse der Ergebnisse
Verbesserung der Qualität von Big Data
Aufbau einer Big-Data-Pipeline
Verwaltung von Benutzern, Gruppen, Rollen und Projekten
Bereitstellung von Open Studio in der Produktionsumgebung
Überwachung von Open Studio
Fehlerbehebung
Zusammenfassung und Fazit
Voraussetzungen
- Verständnis von relationalen Datenbanken
- Verständnis von Data Warehousing
- Verständnis der ETL-Konzepte (Extract, Transform, Load)
Zielgruppe
- Fachkräfte im Bereich Business Intelligence
- Datenbankexperten
- SQL-Entwickler
- ETL-Entwickler
- Lösungsentwickler
- Datenarchitekten
- Fachkräfte im Data-Warehousing
- Systemadministratoren und Integratoren
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Talend Big Data Integration Schulung - Buchung
Talend Big Data Integration Schulung - Anfrage
Talend Big Data Integration - Beratungsanfrage
Erfahrungsberichte (1)
Praktische Übungen. Die Kursdauer sollte eigentlich fünf Tage betragen, aber die drei Tage halfen dabei, viele Fragen zu klären, die ich bei der Arbeit mit NiFi bereits hatte.
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Advanced Apache Iceberg
21 StundenDiese instructor-led Live-Schulung in Österreich (online oder vor Ort) richtet sich an fortgeschrittene Datenfachkräfte, die ihre Datenverarbeitungs-Workflows optimieren, die Datenintegrität sicherstellen und robuste Lakehouse-Lösungen implementieren möchten, die den Komplexitäten moderner Big-Data-Anwendungen gewachsen sind.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Ein tiefgreifendes Verständnis von Icebergs Architektur zu gewinnen, einschließlich Metadatenmanagement und Dateistruktur.
- Iceberg für optimale Leistung in verschiedenen Umgebungen zu konfigurieren und es mit mehreren Datenverarbeitungs-Engines zu integrieren.
- Große Iceberg-Tabellen zu verwalten, komplexe Schemaänderungen vorzunehmen und Partition-Evolution zu handhaben.
- Techniken zur Optimierung der Abfrageleistung und Effizienz des Datenscannings für große Datensätze zu meistern.
- Mechanismen zur Sicherstellung der Datenkonsistenz zu implementieren, Transaktionsgarantien zu verwalten und Ausfälle in verteilten Umgebungen zu behandeln.
Grundlagen von Apache Iceberg
14 StundenDiese instruktionsgeleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Anfänger im Bereich der Datenverarbeitung, die das nötige Wissen und die Fähigkeiten erwerben möchten, um Apache Iceberg effizient zum Management großer Datensätze einzusetzen, die Datenintegrität zu gewährleisten und Datenverarbeitungsprozesse zu optimieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Ein umfassendes Verständnis von Architektur, Funktionen und Vorteilen von Apache Iceberg zu erlangen.
- Kenntnisse über Tabellenformate, Partitionierung, Schemaentwicklung und Zeitreise-Fähigkeiten (Time Travel) zu erwerben.
- Apache Iceberg in verschiedenen Umgebungen zu installieren und zu konfigurieren.
- Iceberg-Tabellen zu erstellen, zu verwalten und damit zu arbeiten.
- Den Prozess der Migration von Daten aus anderen Tabellenformaten nach Iceberg zu verstehen.
Big Data Analytics mit Google Colab und Apache Spark
14 StundenDiese Dozentengestützte, Live-Schulung in Österreich (online oder vor Ort) richtet sich an Data Scientists und Ingenieure mit mittlerem Kenntnisstand, die Google Colab und Apache Spark für Big-Data-Verarbeitung und -Analyse nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Eine Big-Data-Umgebung mit Google Colab und Spark einzurichten.
- Große Datensätze effizient mit Apache Spark zu verarbeiten und zu analysieren.
- Big Data in einer kollaborativen Umgebung zu visualisieren.
- Apache Spark mit Cloud-basierten Tools zu integrieren.
Apache NiFi für Administratoren
21 StundenApache NiFi ist eine Open-Source-Plattform für datenflussbasierte Datenintegration und Ereignisverarbeitung. Sie ermöglicht die automatisierte, Echtzeit-Datenweiterleitung, -transformation und Systemvermittlung zwischen unterschiedlichen Systemen, unterstützt durch eine webbasierte Benutzeroberfläche und feingranulare Kontrollmöglichkeiten.
Dieses vom Kursleiter geleitete Live-Training (vor Ort oder remote) richtet sich an Administratoren und Ingenieure mit mittlerem Kenntnisstand, die NiFi-Datenflüsse in Produktionsumgebungen bereitstellen, verwalten, absichern und optimieren möchten.
Nach Abschluss dieser Schulung sind die Teilnehmer in der Lage:
- Apache-NiFi-Cluster zu installieren, zu konfigurieren und zu warten.
- Datenflüsse aus verschiedenen Quellen und Senken zu entwerfen und zu verwalten.
- Logik für die Flussautomatisierung, Weiterleitung und Transformation zu implementieren.
- Die Leistung zu optimieren, den Betrieb zu überwachen und Probleme zu beheben.
Kursformat
- Interaktive Vorträge mit Diskussionen zu realen Architekturen.
- Praxisübungen: Erstellen, Bereitstellen und Verwalten von Flüssen.
- Szenariobasierte Übungen in einer Live-Laborumgebung.
Möglichkeiten zur Kursanpassung
- Um eine maßgeschneiderte Schulung für diesen Kurs anzufordern, kontaktieren Sie uns bitte zur Vereinbarung.
PySpark und Maschinelles Lernen
21 StundenDieses Schulung bietet eine praktische Einführung in den Aufbau skalierbarer Datenverarbeitungs- und Machine-Learning-Arbeitsabläufe mit PySpark. Die Teilnehmenden lernen, wie Apache Spark in modernen Big-Data-Ökosystemen funktioniert und wie große Datensätze effizient mithilfe von Prinzipien der verteilten Datenverarbeitung verarbeitet werden können.
Apache Spark-Grundlagen
21 StundenDieses von Dozenten geleitete Live-Training in Österreich (online oder vor Ort) richtet sich an Ingenieure, die ein Apache Spark-System zur Verarbeitung sehr großer Datenmengen einrichten und bereitstellen möchten.
Am Ende dieses Trainings können die Teilnehmer:
- Apache Spark installieren und konfigurieren.
- Sehr große Datensätze schnell verarbeiten und analysieren.
- Den Unterschied zwischen Apache Spark und Hadoop MapReduce verstehen und wissen, wann sie welches einsetzen sollten.
- Apache Spark mit anderen Machine-Learning-Tools integrieren.
Verwaltung von Apache Spark
35 StundenDiese dozentengeleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Systemadministratoren mit grundlegenden bis mittleren Kenntnissen, die Spark-Cluster bereitstellen, warten und optimieren möchten.
Nach Abschluss dieser Schulung können die Teilnehmer:
- Apache Spark in verschiedenen Umgebungen installieren und konfigurieren.
- Cluster-Ressourcen verwalten und Spark-Anwendungen überwachen.
- Die Leistung von Spark-Clustern optimieren.
- Sicherheitsmaßnahmen implementieren und Hochverfügbarkeit sicherstellen.
- Häufige Spark-Probleme debuggen und lösen.
Apache Spark in der Cloud
21 StundenDie Lernkurve von Apache Spark ist anfangs steil und erfordert viel Aufwand, bis erste Ergebnisse erzielt werden können. Dieser Kurs soll genau diese anfängliche Hürde nehmen. Nach Abschluss des Kurses verstehen die Teilnehmer die Grundlagen von Apache Spark, können RDDs klar von DataFrames unterscheiden, lernen die Python- und Scala-APIs kennen und begreifen Konzepte wie Executor und Task. Zudem legt der Kurs gemäß den Best Practices einen starken Fokus auf Cloud-Deployment sowie auf Databricks und AWS. Die Teilnehmer erfahren außerdem die Unterschiede zwischen AWS EMR und AWS Glue, einem der neuesten Spark-Services von AWS.
ZIELGRUPPE:
Data Engineers, DevOps-Engineer, Data Scientists
Python und Spark für Big Data (PySpark)
21 StundenIn diesem dozentengeleiteten Live-Training in Österreich lernen die Teilnehmer, wie sie Python und Spark gemeinsam nutzen können, um Big Data in der Praxis durch Übungen zu analysieren.
Nach Abschluss dieses Trainings werden die Teilnehmer in der Lage sein:
- Zu verstehen, wie man Spark mit Python zur Analyse von Big Data einsetzt.
- Übungen durchzuführen, die reale Anwendungsfälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark zu nutzen.
Python, Spark und Hadoop für Big Data
21 StundenDiese instructor-gestützte, live Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python nutzen und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Die notwendige Umgebung für den Einstieg in die Big-Data-Verarbeitung mit Spark, Hadoop und Python einzurichten.
- Die Funktionen, Kernkomponenten und die Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie Spark, Hadoop und Python für die Big-Data-Verarbeitung integriert werden.
- Die Tools im Spark-Ökosystem erkunden (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Kooperative Filter-Empfehlungssysteme ähnlich denen von Netflix, YouTube, Amazon, Spotify und Google aufbauen.
- Apache Mahout zur Skalierung von Machine-Learning-Algorithmen einsetzen.
Stratio: Rocket- und Intelligence-Module mit PySpark
14 StundenStratio ist eine datenzentrierte Plattform, die Big Data, KI und Governance in einer einzigen Lösung integriert. Die Module Rocket und Intelligence ermöglichen schnelle Datenexploration, Transformationen und fortschrittliche Analysen in Unternehmensumgebungen.
Diese dozentengeführte Live-Schulung (online oder vor Ort) richtet sich an erfahrene Datenprofis, die die Rocket- und Intelligence-Module in Stratio effektiv mit PySpark nutzen möchten, wobei der Schwerpunkt auf Schleifenstrukturen, benutzerdefinierten Funktionen und fortgeschrittener Datenlogik liegt.
Nach Abschluss dieser Schulung werden die Teilnehmer in der Lage sein:
- Sich im Stratio-Plattform mit den Modulen Rocket und Intelligence zurechtzufinden und darin zu arbeiten.
- PySpark im Kontext der Datenaufnahme, Transformation und Analyse einzusetzen.
- Schleifen und bedingte Logik zur Steuerung von Datenworkflows und Feature-Engineering-Aufgaben zu verwenden.
- Benutzerdefinierte Funktionen (UDFs) für wiederverwendbare Datenoperationen in PySpark zu erstellen und zu verwalten.
Kursformat
- Interaktiver Vortrag und Diskussion.
- Viele Übungen und Praxisbeispiele.
- Praktische Umsetzung in einer Live-Lab-Umgebung.
Möglichkeiten zur Anpassung des Kurses
- Um eine maßgeschneiderte Schulung für diesen Kurs anzufordern, kontaktieren Sie uns bitte zur Vereinbarung.
Talend Administration Center (TAC)
14 StundenDieses live geleitete Training in Österreich (online oder vor Ort) richtet sich an Systemadministratoren, Datenwissenschaftler und Business Analysts, die Talend Administration Center einrichten möchten, um Rollen und Aufgaben in der Organisation bereitzustellen und zu verwalten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Talend Administration Center zu installieren und zu konfigurieren.
- Die Grundlagen des Talend-Managements zu verstehen und umzusetzen.
- Geschäftsprojekte oder -aufgaben in Talend zu erstellen, bereitzustellen und auszuführen.
- Die Sicherheit von Datensätzen zu überwachen und Geschäftsroutinen auf der Basis des TAC-Frameworks zu entwickeln.
- Ein umfassenderes Verständnis von Big-Data-Anwendungen zu erlangen.
Talend Data Stewardship
14 StundenDiese instructor-led live Schulung in Österreich (online oder vor Ort) richtet sich an Datenanalysten mit Grund- bis Fortgeschrittenenkentnissen, die ihr Verständnis und ihre Fähigkeiten im Umgang und der Verbesserung der Datenqualität mittels Talend Data Stewardship vertiefen möchten.
Nach Abschluss dieser Schulung sind die Teilnehmer in der Lage:
- Sich ein umfassendes Verständnis der Rolle von Data Stewardship bei der Aufrechterhaltung der Datenqualität anzueignen.
- Talend Data Stewardship zur Verwaltung von Datenqualitätsaufgaben zu nutzen.
- Aufgaben innerhalb von Talend Data Stewardship zu erstellen, zuzuweisen und zu verwalten, einschließlich der Workflow-Anpassung.
- Die Berichts- und Überwachungsfunktionen des Tools einzusetzen, um die Datenqualität und die Bemühungen im Bereich Data Stewardship nachzuverfolgen.
Talend Open Studio for ESB
21 StundenIn diesem vom Dozenten geleiteten Live-Training in Österreich lernen die Teilnehmenden, wie sie Talend Open Studio for ESB nutzen, um Dienste sowie deren Interaktionen zu erstellen, anzuschließen, zu vermitteln und zu verwalten.
Am Ende dieses Trainings können die Teilnehmenden
- ESB-Technologien als einzelne Pakete in verschiedenen Bereitstellumgebungen integrieren, erweitern und bereitstellen.
- Die am häufigsten genutzten Komponenten von Talend Open Studio verstehen und nutzen.
- Jede Anwendung, Datenbank, API oder jeden Webdienst integrieren.
- Heterogene Systeme und Anwendungen nahtlos integrieren.
- Vorhandene Java-Codebibliotheken einbetten, um Projekte zu erweitern.
- Gemeinschaftskomponenten und -code nutzen, um Projekte zu erweitern.
- Systeme, Anwendungen und Datenquellen schnell in einer Eclipse-Umgebung mit Drag-and-Drop-Funktion integrieren.
- Entwicklungszeit und Wartungskosten durch die Generierung optimierter, wiederverwendbarer Code reduzieren.