Apache Spark ML (Modul 6 und 7)

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können. Anschließend lernen Sie die Funktionalität von SparkR kennen und erstellen einfache R-Programme unter Nutzung von Spark.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Spark Einführung

In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 6: Spark Machine Learning (MLlib)

Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.

Modul 7: SparkR

SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.

Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.

Ziele

In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können. Anschließend lernen Sie die Funktionalität von SparkR kennen und erstellen einfache R-Programme unter Nutzung von Spark.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung

Agenda

Spark Einführung

In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.

Modul 6: Spark Machine Learning (MLlib)

Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.

Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.

Modul 7: SparkR

SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.

Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.

Tags

Diese Seite weiterempfehlen