Apache Spark SQL (Modul 4 und 5)

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 2 Tage

Ziele

In diesem Kurs erhalten Sie einen grundlegenden Einstieg in Spark SQL um strukturierte Daten effizient mit der Sprache SQL verarbeiten zu können. Anschließend lernen Sie die Grundprinzipien der Implementierung von GraphX kennen und lösen exemplarische Aufgabenstellungen mit Hilfe von Python.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Spark Einführung

In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 4: Spark SQL

Der Durchbruch für Spark SQL erfolgte mit der Einführung von Datasets und DataFrames, die die performante verteilte Verarbeitung von strukturierten Daten möglich machte. Spark SQL ist heute eine der am häufigsten eingesetzten Komponenten und ermöglicht eine SQL-basierte Verarbeitung von verteilten Daten.

Sie lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Scala.

Modul 5: Spark GraphX

GraphX ist eine Komponente in Spark, die speziell auf die Verarbeitung von Graphen ausgelegt ist. Jeder Graph besteht aus Knoten und Kanten, die wiederum durch Eigenschaften beschrieben sind. GraphX definiert sogenannte Eigenschafts-Graphen, über denen typische Graphen-Operationen ausgeführt werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von GraphX vertraut und lösen exemplarische Aufgabenstellungen mit Hilfe von Python.

 

Ziele

In diesem Kurs erhalten Sie einen grundlegenden Einstieg in Spark SQL um strukturierte Daten effizient mit der Sprache SQL verarbeiten zu können. Anschließend lernen Sie die Grundprinzipien der Implementierung von GraphX kennen und lösen exemplarische Aufgabenstellungen mit Hilfe von Python.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Spark Einführung

In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 4: Spark SQL

Der Durchbruch für Spark SQL erfolgte mit der Einführung von Datasets und DataFrames, die die performante verteilte Verarbeitung von strukturierten Daten möglich machte. Spark SQL ist heute eine der am häufigsten eingesetzten Komponenten und ermöglicht eine SQL-basierte Verarbeitung von verteilten Daten.

Sie lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Scala.

Modul 5: Spark GraphX

GraphX ist eine Komponente in Spark, die speziell auf die Verarbeitung von Graphen ausgelegt ist. Jeder Graph besteht aus Knoten und Kanten, die wiederum durch Eigenschaften beschrieben sind. GraphX definiert sogenannte Eigenschafts-Graphen, über denen typische Graphen-Operationen ausgeführt werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von GraphX vertraut und lösen exemplarische Aufgabenstellungen mit Hilfe von Python.

 

Diese Seite weiterempfehlen