Apache Beam ist ein Open-Source-Programm zur einheitlichen Definition und Ausführung von parallelen Datenverarbeitungspipelines Seine Stärke liegt in der Fähigkeit, sowohl Batch- als auch Streaming-Pipelines auszuführen, wobei die Ausführung durch eines der von Beam unterstützten verteilten Verarbeitungs-Backends ausgeführt wird: Apache Apex, Apache Fink, Apache Spark und Google Cloud Dataflow Apache Beam ist nützlich für ETL-Aufgaben (Extrahieren, Transformieren und Laden), z B zum Verschieben von Daten zwischen verschiedenen Speichermedien und Datenquellen, zum Umwandeln von Daten in ein wünschenswertes Format und zum Laden von Daten in ein neues System In diesem instruierten Live-Training (vor Ort oder remote) lernen die Teilnehmer, wie sie die Apache Beam SDKs in einer Java- oder Python-Anwendung implementieren, die eine Datenverarbeitungspipeline zum Zerlegen eines großen Datensatzes in kleinere Blöcke für die unabhängige, parallele Verarbeitung definiert Am Ende dieses Trainings werden die Teilnehmer in der Lage sein: Installieren und konfigurieren Sie Apache Beam Verwenden Sie ein einzelnes Programmiermodell, um sowohl die Batch- als auch die Stream-Verarbeitung auszuführen, indem Sie ihre Java- oder Python-Anwendung verwenden Führen Sie Pipelines über mehrere Umgebungen hinweg aus Publikum Entwickler Format des Kurses Teilvorlesung, Teildiskussion, Übungen und schwere Handsonsübungen Hinweis Dieser Kurs wird in Zukunft Scala zur Verfügung stehen Bitte kontaktieren Sie uns, um zu vereinbaren .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion