Data Mining und Data Science mit MongoDB und Apache Spark

Classroom training | German | Claim

Duration of training: 2 days

Objectives

In diesem Kurs lernen Sie MongoDB als Datenspeicher unter Spark zu betreiben, typische Data Mining und Data Science Workflows umzusetzen und dabei die Perfomancevorteile von MongoDB zu nutzen.

Target audience

  • Data Mining Spezialisten
  • Data Science Spezialisten

Requirements

  • Datenbank-Grundwissen
  • Datenanalyse-Grundwissen
  • Kenntnisse im Bereich Data Mining und/oder Data Science
  • Kenntnisse der Programmiersprachen Scala, Python, Java, R

Agenda

Grundlagen

  • Spark
  • MongoDB
  • MongoDB Spark Connector

Hands-On: Testumgebung

  • MongoDB Installation
  • Spark Installation
  • Spark Connector
    • Installation
    • Konfiguration

MongoDB Performance und Indexierung

  • Erstellen von Indexen
  • Arten von Indexen
  • Performanceoptimierung durch Indexierung
  • Aggregation Framework und Aggregation Pipelines

Spark Connector und Scala

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Filter und Aggregationen
  • Datasets und SQL
  • Spark Streaming

Spark Connector und Java

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Datasets und SQL

Spark Connector und Python

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Filter und SQL

Spark Connector und R

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Filter und SQL

Trainer Info

Marc-David Militz

Marc Militz ist Senior Consultant und Trainer der New Elements GmbH. Sein Schwerpunkt liegt in der Konzeption und Entwicklung echtzeitfähiger Architekturen mit Big Data Technologien wie sie insbesondere in eCommerce-Unternehmen notwendig sind. Er verfügt über langjährige Erfahrung in der Sammlung und Visualisierung von Onlinedaten in Echtzeit, deren Analyse mit Machine Learning und Verknüpfung mit unternehmensinternen Daten für die Entscheidungsfindung. Trainingsschwerpunkte: Schulungen zu Big Data mit Microsoft-Technologien und Architekturen wie bspw. Hadoop, NoSQL-DBBig Data ArchitekturenNutzung von Big Data Technologien in der CloudKombination von Cloud- und On-Prem-Technologien für Big Data-AnwendungenSchulungen zu Big Data Einsatzbereichen wie bspw. Data Analytics, Visual Analytics, Predictive Analytics, Data Mining Zielgruppe: Big Data Engineers, Data Scientisten Führungskräfte, Projektverantwortliche

Zur Profilseite von Marc-David Militz
Marc-David Militz

Objectives

In diesem Kurs lernen Sie MongoDB als Datenspeicher unter Spark zu betreiben, typische Data Mining und Data Science Workflows umzusetzen und dabei die Perfomancevorteile von MongoDB zu nutzen.

Target audience

  • Data Mining Spezialisten
  • Data Science Spezialisten

Requirements

  • Datenbank-Grundwissen
  • Datenanalyse-Grundwissen
  • Kenntnisse im Bereich Data Mining und/oder Data Science
  • Kenntnisse der Programmiersprachen Scala, Python, Java, R

Agenda

Grundlagen

  • Spark
  • MongoDB
  • MongoDB Spark Connector

Hands-On: Testumgebung

  • MongoDB Installation
  • Spark Installation
  • Spark Connector
    • Installation
    • Konfiguration

MongoDB Performance und Indexierung

  • Erstellen von Indexen
  • Arten von Indexen
  • Performanceoptimierung durch Indexierung
  • Aggregation Framework und Aggregation Pipelines

Spark Connector und Scala

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Filter und Aggregationen
  • Datasets und SQL
  • Spark Streaming

Spark Connector und Java

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Datasets und SQL

Spark Connector und Python

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Filter und SQL

Spark Connector und R

  • In MongoDB schreiben
  • Von MongoDB lesen
  • Aggregationen
  • Filter und SQL

Trainer Info

Marc-David Militz

Marc Militz ist Senior Consultant und Trainer der New Elements GmbH. Sein Schwerpunkt liegt in der Konzeption und Entwicklung echtzeitfähiger Architekturen mit Big Data Technologien wie sie insbesondere in eCommerce-Unternehmen notwendig sind. Er verfügt über langjährige Erfahrung in der Sammlung und Visualisierung von Onlinedaten in Echtzeit, deren Analyse mit Machine Learning und Verknüpfung mit unternehmensinternen Daten für die Entscheidungsfindung. Trainingsschwerpunkte: Schulungen zu Big Data mit Microsoft-Technologien und Architekturen wie bspw. Hadoop, NoSQL-DBBig Data ArchitekturenNutzung von Big Data Technologien in der CloudKombination von Cloud- und On-Prem-Technologien für Big Data-AnwendungenSchulungen zu Big Data Einsatzbereichen wie bspw. Data Analytics, Visual Analytics, Predictive Analytics, Data Mining Zielgruppe: Big Data Engineers, Data Scientisten Führungskräfte, Projektverantwortliche

Zur Profilseite von Marc-David Militz
Marc-David Militz

This learning content is used in the following learning plans

Tags

Recommend this site