Data Mining und Data Science mit MongoDB und Apache Spark
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 2 Tage
Ziele
In diesem Kurs lernen Sie MongoDB als Datenspeicher unter Spark zu betreiben, typische Data Mining und Data Science Workflows umzusetzen und dabei die Perfomancevorteile von MongoDB zu nutzen.
Zielgruppe
- Data Mining Spezialisten
- Data Science Spezialisten
Voraussetzungen
- Datenbank-Grundwissen
- Datenanalyse-Grundwissen
- Kenntnisse im Bereich Data Mining und/oder Data Science
- Kenntnisse der Programmiersprachen Scala, Python, Java, R
Agenda
Grundlagen
- Spark
- MongoDB
- MongoDB Spark Connector
Hands-On: Testumgebung
- MongoDB Installation
- Spark Installation
- Spark Connector
- Installation
- Konfiguration
MongoDB Performance und Indexierung
- Erstellen von Indexen
- Arten von Indexen
- Performanceoptimierung durch Indexierung
- Aggregation Framework und Aggregation Pipelines
Spark Connector und Scala
- In MongoDB schreiben
- Von MongoDB lesen
- Filter und Aggregationen
- Datasets und SQL
- Spark Streaming
Spark Connector und Java
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Datasets und SQL
Spark Connector und Python
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Filter und SQL
Spark Connector und R
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Filter und SQL
Über den Dozenten
Marc-David Militz
Marc Militz ist Senior Consultant und Trainer der New Elements GmbH. Sein Schwerpunkt liegt in der Konzeption und Entwicklung echtzeitfähiger Architekturen mit Big Data Technologien wie sie insbesondere in eCommerce-Unternehmen notwendig sind. Er verfügt über langjährige Erfahrung in der Sammlung und Visualisierung von Onlinedaten in Echtzeit, deren Analyse mit Machine Learning und Verknüpfung mit unternehmensinternen Daten für die Entscheidungsfindung. Trainingsschwerpunkte: Schulungen zu Big Data mit Microsoft-Technologien und Architekturen wie bspw. Hadoop, NoSQL-DBBig Data ArchitekturenNutzung von Big Data Technologien in der CloudKombination von Cloud- und On-Prem-Technologien für Big Data-AnwendungenSchulungen zu Big Data Einsatzbereichen wie bspw. Data Analytics, Visual Analytics, Predictive Analytics, Data Mining Zielgruppe: Big Data Engineers, Data Scientisten Führungskräfte, Projektverantwortliche
Zur Profilseite von Marc-David Militz
Ziele
In diesem Kurs lernen Sie MongoDB als Datenspeicher unter Spark zu betreiben, typische Data Mining und Data Science Workflows umzusetzen und dabei die Perfomancevorteile von MongoDB zu nutzen.
Zielgruppe
- Data Mining Spezialisten
- Data Science Spezialisten
Voraussetzungen
- Datenbank-Grundwissen
- Datenanalyse-Grundwissen
- Kenntnisse im Bereich Data Mining und/oder Data Science
- Kenntnisse der Programmiersprachen Scala, Python, Java, R
Agenda
Grundlagen
- Spark
- MongoDB
- MongoDB Spark Connector
Hands-On: Testumgebung
- MongoDB Installation
- Spark Installation
- Spark Connector
- Installation
- Konfiguration
MongoDB Performance und Indexierung
- Erstellen von Indexen
- Arten von Indexen
- Performanceoptimierung durch Indexierung
- Aggregation Framework und Aggregation Pipelines
Spark Connector und Scala
- In MongoDB schreiben
- Von MongoDB lesen
- Filter und Aggregationen
- Datasets und SQL
- Spark Streaming
Spark Connector und Java
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Datasets und SQL
Spark Connector und Python
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Filter und SQL
Spark Connector und R
- In MongoDB schreiben
- Von MongoDB lesen
- Aggregationen
- Filter und SQL
Über den Dozenten
Marc-David Militz
Marc Militz ist Senior Consultant und Trainer der New Elements GmbH. Sein Schwerpunkt liegt in der Konzeption und Entwicklung echtzeitfähiger Architekturen mit Big Data Technologien wie sie insbesondere in eCommerce-Unternehmen notwendig sind. Er verfügt über langjährige Erfahrung in der Sammlung und Visualisierung von Onlinedaten in Echtzeit, deren Analyse mit Machine Learning und Verknüpfung mit unternehmensinternen Daten für die Entscheidungsfindung. Trainingsschwerpunkte: Schulungen zu Big Data mit Microsoft-Technologien und Architekturen wie bspw. Hadoop, NoSQL-DBBig Data ArchitekturenNutzung von Big Data Technologien in der CloudKombination von Cloud- und On-Prem-Technologien für Big Data-AnwendungenSchulungen zu Big Data Einsatzbereichen wie bspw. Data Analytics, Visual Analytics, Predictive Analytics, Data Mining Zielgruppe: Big Data Engineers, Data Scientisten Führungskräfte, Projektverantwortliche
Zur Profilseite von Marc-David Militz