Apache Spark ML (Modul 6 und 7)
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 3 Tage
Ziele
In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können. Anschließend lernen Sie die Funktionalität von SparkR kennen und erstellen einfache R-Programme unter Nutzung von Spark.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung
4) Spezialisierungskurse (Schwierigkeitsgrad 400)
a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung
Agenda
Spark Einführung
In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.
Modul 6: Spark Machine Learning (MLlib)
Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.
Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.
Modul 7: SparkR
SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.
Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.
Ziele
In diesem Kurs erhalten Sie einen Einblick in die Grundlagen von Machine Learning mit denen Vorhersagemodelle in Spark erstellt werden können. Anschließend lernen Sie die Funktionalität von SparkR kennen und erstellen einfache R-Programme unter Nutzung von Spark.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse in einer Programmiersprache, vorzugsweise Java, Scala oder Python werden vorausgesetzt. Kenntnisse über Hadoop werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Hadoop und Java Vertiefung
b. Hadoop und Python Vertiefung
4) Spezialisierungskurse (Schwierigkeitsgrad 400)
a. Data Scientist Tools Spezialisierung
b. Data Engineer Tools Spezialisierung
Agenda
Spark Einführung
In dieser kurzen Wiederholung werden die für die weiteren Ausführungen wichtigen Begriffe und Zusammenhänge aufgefrischt.
Modul 6: Spark Machine Learning (MLlib)
Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen für Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.
Sie machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.
Modul 7: SparkR
SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache "R" und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.
Sie machen sich mit der Funktionalität von SparkR vertraut und nutzen MLlib aus R heraus.