Apache Spark ML

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Einführung

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte RDDs (Resilient Distributed Datasets) aufspaltet, dass diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise in MapReduce.

In diesem kurzen, einführenden Modul werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 2: Spark Machine Learning (MLlib)

Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.

Modul 3: SparkR

SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.

Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Modul 1: Spark Einführung

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter. Kern von Spark ist eine Engine, die Daten in sogenannte RDDs (Resilient Distributed Datasets) aufspaltet, dass diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise in MapReduce.

In diesem kurzen, einführenden Modul werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 2: Spark Machine Learning (MLlib)

Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.

Modul 3: SparkR

SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.

Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.

Diese Seite weiterempfehlen