Apache Spark Grundkurs

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

In diesem Kurs lernen Sie die Grundlagen von Spark kennen.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Grundlagen

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte Resilient Distributed Datasets (RDDs) aufspaltet, welches diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise in MapReduce.

In diesem einführenden Modul lernen Sie die grundlegenden Prinzipien von Spark und ihre Integration in das Hadoop-Ökosystem kennen.

Modul 2: Spark Programmierung

Jedes Spark-Programm besteht aus einem zentralen Driver Program sowie zahlreichen Executor Programs, die auf den einzelnen Knoten ausgeführt werden. Es stehen verschiedene Schnittstellen zur Verfügung, um Spark-Programme in Java, Scala oder Python erstellen zu können.

Aufbauend auf dem Grundkonzept, welches für alle Sprachen gleich ist, wird ein Überblick zu den einzelnen Sprachvarianten gegeben und auf Unterschiede eingegangen. Sie setzen eigenständig Aufgabenstellungen mit der Sprache ihrer Wahl um. Abschließend werden die Realisierungen mit verschiedenen Sprachen diskutiert.

Modul 3: Spark Tools

Die Liste der verfügbaren Werkzeuge für die Entwicklung und Ausführung von Spark-Programmen ist lang und reicht von (interaktiven) Shell-Tools bis zur mächtigen Spark-Plattform von Databricks. In diesem Modul lernen Sie die interaktiven Shells in Hadoop für Scala und Python kennen, wenden webbasierte Notebooks wie Zeppelin und Jupyter an, nutzen die Entwickler-Tools Eclipse und Visual Studio und erhalten einen Überblick zur Spark-Plattform von Databricks.

Ziele

In diesem Kurs lernen Sie die Grundlagen von Spark kennen.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Grundlagen

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte Resilient Distributed Datasets (RDDs) aufspaltet, welches diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise in MapReduce.

In diesem einführenden Modul lernen Sie die grundlegenden Prinzipien von Spark und ihre Integration in das Hadoop-Ökosystem kennen.

Modul 2: Spark Programmierung

Jedes Spark-Programm besteht aus einem zentralen Driver Program sowie zahlreichen Executor Programs, die auf den einzelnen Knoten ausgeführt werden. Es stehen verschiedene Schnittstellen zur Verfügung, um Spark-Programme in Java, Scala oder Python erstellen zu können.

Aufbauend auf dem Grundkonzept, welches für alle Sprachen gleich ist, wird ein Überblick zu den einzelnen Sprachvarianten gegeben und auf Unterschiede eingegangen. Sie setzen eigenständig Aufgabenstellungen mit der Sprache ihrer Wahl um. Abschließend werden die Realisierungen mit verschiedenen Sprachen diskutiert.

Modul 3: Spark Tools

Die Liste der verfügbaren Werkzeuge für die Entwicklung und Ausführung von Spark-Programmen ist lang und reicht von (interaktiven) Shell-Tools bis zur mächtigen Spark-Plattform von Databricks. In diesem Modul lernen Sie die interaktiven Shells in Hadoop für Scala und Python kennen, wenden webbasierte Notebooks wie Zeppelin und Jupyter an, nutzen die Entwickler-Tools Eclipse und Visual Studio und erhalten einen Überblick zur Spark-Plattform von Databricks.

Diese Seite weiterempfehlen