Interactive Spark on Azure

Video | Englisch | Anspruch

Die Diskussion beginnt mit einem Walk-through das Prozesses und der Herausforderungen, denen sich Data Scientists stellten muss beim Processing der Daten. Es wird erklärt, dass Data Science ein iterativer Prozess, aber dass typischerweise deren Produktivität nicht effizient ist, da sie viel Zeit damit verbringen, darauf zu warten dass Jobs abgeschlossen werden. Einer der großen Faktoren ist die Größe und die Reinheit der Daten, was zu den langen Wartezeiten beiträgt.

Ab der Stelle [05:20] im Video, wird gezeigt wie Spark auf Azure eine Lösung für dieses Problem mittels Limitierung der Längen von Iterationen, was hilft, produktiver zu sein. Es wird gezeigt, wie dies vorgenommen wird. Es wird zunächst Apache Spark eingeführt und dann wird darauf eingegangen, wie Spark on Azure die Data Exploration sogar noch besser macht.

Ab der Stelle [08:38] ist DEMO TIME. Dort wird in wenigen Minuten dargestellt wie man Azrue Spar HDInsight Cluster auflegt, um darauf dann in den restlichen 10 Minuten zu nutzen Demos zu zeigen, wie an Spark in HDInsight nutzen kann Jobs effizient aufzuführen.

Interactive Spark on Azure

Tags

Diese Seite weiterempfehlen