MongoDB

MongoDB ist die führende Open-Source, Document Datenbank die für einfache Entwicklung und Skalierung aber auch für Big Data Szenarien entwickelt wurde.

MongoDB Apache Spark Connector nun Microsoft Azure Databricks zertifiziert

Marc-David Militz
Experte
  • Na das ist mal eine Sammlung von Buzzwords im Titel ;-)

    • Der MongoDB Connector für Apache Spark ist nun, von Microsoft, für Azure Databricks zertifiziert worden. Damit ist es nun möglich Spark auf dem MongoDB Atlas Dienst laufen zu lassen und damit fortgeschrittene Analytics- und Machine Learning Workloads laufen zu lassen.

      Der MongoDB Connector für Apache Spark ermöglicht den Zugriff auf alle Spark Bibliotheken. Darunter Scala, Java, Python, und R. Die Daten in der MongoDB werden als DataFrames und Datasets umgesetzt und für Analysen, Machine Learning, Streaming, Graph und SQL Api´s zur Verfügung gestellt. Dabei können die Vorteile der MongoDB, wie die Aggregation Pipeline und die wertvollen Sekundärindexe, genutzt werden um die benötigten Daten zu extrahieren, samplen und zu verarbeiten. Das ist auch einer der großen Unterschiede, im Vergleich zu einfachen NoSQL-Speichern, die in der Regel keinerlei Indexierung oder Verarbeitung der Daten innerhalb der Datenbank anbieten. Auch Spark muss normalerweise alle benötigten Daten extrahieren und anhand eines Primärschlüssels aussortieren, selbst wenn nur eine kleine Untermenge verarbeitet werden soll. Daraus resultiert ein größerer Verarbeitungs-Overhead, mehr Hardwareeinsatz und eine längere "time-to-insight" für Data Scientisten und Ingenieure.

      Des weiteren macht es die Workload Isolation von MongoDB einfach, Daten aus unterschiedlichen Quellen in eine Datenbank zu bringen, ohne dabei andere geschäftskritische Datenbankoperationen zu beeinflussen. Spark Jobs auf MongoDB beseitigen die Notwendigkeit von ETl-Prozessen und dem damit verbundenen duplizieren der Daten auf einen separaten Cluster oder ein HDFS System. Das vereinfacht die Architektur dramatisch und beschleunigt die Ausfürung von Analysen deutlich.

      Mit der Kombination aus MongoDB Atlas und Azure Databricks können Nutzer den vollen Vorteil einer gemanagten Plattform auskosten. Dabei werden Entwicklerressourcen freigegeben, die sich auf ihre Kernaufgaben konzentrieren und schneller, wichtige Analysen und Insights liefern können.

Neueste Mitgliederaktivitäten

Tags

Diesen Community Beitrag weiterempfehlen