Apache Spark Streaming

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 2 Tage

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Spark Streaming, mit dem Daten zeitnah in sogenannten Micro Batches verarbeitet werden können.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Kafka Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Einführung

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte RDDs (Resilient Distributed Datasets) aufspaltet, dass diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise im MapReduce-Verfahren. In diesem kurzen, einführenden Modul werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 2: Spark Streaming

Spark Streaming ist eine Lösung, um in sogenannten Micro Batches Daten zeitnah verarbeiten zu können. Das ist zwar kein Ansatz, um im Hochgeschwindigkeitshandel bestehen zu können, aber allemal geeignet, um Daten im Sekundenbereich verarbeiten zu können. Das Konzept von Spark Streaming besteht darin, den permanenten Datenstrom in sogenannten DStreams zu portionieren und jedes dieser Pakete als Kleinststapel in der Spark Engine zu verarbeiten.

Sie machen sich mit dem Konzept von Spark Streaming vertraut und üben, wie Daten beispielsweise aus Kafka mit Hilfe von Java verarbeitet werden können. Darüber hinaus wird auf die recht anspruchsvolle Thematik der Optimierung derartiger Anwendungen eingegangen.

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Spark Streaming, mit dem Daten zeitnah in sogenannten Micro Batches verarbeitet werden können.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Kafka Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Einführung

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte RDDs (Resilient Distributed Datasets) aufspaltet, dass diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise im MapReduce-Verfahren. In diesem kurzen, einführenden Modul werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 2: Spark Streaming

Spark Streaming ist eine Lösung, um in sogenannten Micro Batches Daten zeitnah verarbeiten zu können. Das ist zwar kein Ansatz, um im Hochgeschwindigkeitshandel bestehen zu können, aber allemal geeignet, um Daten im Sekundenbereich verarbeiten zu können. Das Konzept von Spark Streaming besteht darin, den permanenten Datenstrom in sogenannten DStreams zu portionieren und jedes dieser Pakete als Kleinststapel in der Spark Engine zu verarbeiten.

Sie machen sich mit dem Konzept von Spark Streaming vertraut und üben, wie Daten beispielsweise aus Kafka mit Hilfe von Java verarbeitet werden können. Darüber hinaus wird auf die recht anspruchsvolle Thematik der Optimierung derartiger Anwendungen eingegangen.

Diese Seite weiterempfehlen