MOC 20775 Performing Data Engineering on Microsoft HD Insight

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 5 Tage

Ziele

In diesem Kurs lernen Sie Methoden kennen, um Planung und Implementierung von Big Data Workflows mit HDInsight durchzuführen.

Zielgruppe

  • Data Professionals

Voraussetzungen

  • Programmierungerfahrung mit R 
  • Grundkenntnise über grundlegende statistischen Methoden und Best Practices der Datenanalyse
  • Microsoft Windows Betriebssystemerfahrung
  • Praktische Erfahrung mit relationalen Datenbanken

Agenda

HDInsight

  • Big Data
  • Hadoop
  • MapReduce
  • HDInsighteinführung

HDInsight Clusterbereitstellung

  • Clustertypen
  • Cluster mit Azure verwalten
  • Cluster mit Azure PowerShell verwalten

Nutzerauthorisierung für Access Ressources 

  • Non-Domain Joined Clusters
  • Domain-Joined Clusters konfigurieren
  • Domain-Joined Clusters verwalten

Daten laden

  • Speicher
  • Tools
  • Nutzenmaximierung

Troubleshooting

  • Analyse von Protokollen
  • YARN Protokolle
  • Heap Dumps
  • OMS

Implementierung von Batch-Lösungen 

  • Apache-Hive-Speicher
  • Mit Hive und Pig abfragen
  • HDInsight operationalisieren

Design von Batch-ETL-Lösungen mit Spark

  • Was ist Spark?
  • ETL mit Spark
  • Performance

Datenanalyse mit Spark SQL

  • Iterative und interaktive Abfragen implementieren
  • Exploratory Data Analysis

Datenanalyse mit Hive und Phoenix

  • Implementierung interaktiver Abfragen
  • Exploratory Data Analysis
  • Interaktive Verarbeitung mithilfe Apache Phoenix

Stream Analytics

Streaming Lösungen mit Kafka und HBase

  • Gestaltung und Bereitstellung Kafka Cluster
  • Veröffentlichen, konsumieren und bearbeiten
  • Daten speichern und abfragen

Entwickeln von Lösungen für Echtzeitvereinbarung von Big Data mit Apache Storm

  • Langzeitdaten
  • Daten streamen
  • Topologien erstellen
  • Apache Storm konfigurieren

Erstellung von Spark Streaming Applikationen

  • Arbeiten mit Spark Streaming
  • Spark Structured Streaming Applikationen erstellen
  • Persistence und Visualization

Ziele

In diesem Kurs lernen Sie Methoden kennen, um Planung und Implementierung von Big Data Workflows mit HDInsight durchzuführen.

Zielgruppe

  • Data Professionals

Voraussetzungen

  • Programmierungerfahrung mit R 
  • Grundkenntnise über grundlegende statistischen Methoden und Best Practices der Datenanalyse
  • Microsoft Windows Betriebssystemerfahrung
  • Praktische Erfahrung mit relationalen Datenbanken

Agenda

HDInsight

  • Big Data
  • Hadoop
  • MapReduce
  • HDInsighteinführung

HDInsight Clusterbereitstellung

  • Clustertypen
  • Cluster mit Azure verwalten
  • Cluster mit Azure PowerShell verwalten

Nutzerauthorisierung für Access Ressources 

  • Non-Domain Joined Clusters
  • Domain-Joined Clusters konfigurieren
  • Domain-Joined Clusters verwalten

Daten laden

  • Speicher
  • Tools
  • Nutzenmaximierung

Troubleshooting

  • Analyse von Protokollen
  • YARN Protokolle
  • Heap Dumps
  • OMS

Implementierung von Batch-Lösungen 

  • Apache-Hive-Speicher
  • Mit Hive und Pig abfragen
  • HDInsight operationalisieren

Design von Batch-ETL-Lösungen mit Spark

  • Was ist Spark?
  • ETL mit Spark
  • Performance

Datenanalyse mit Spark SQL

  • Iterative und interaktive Abfragen implementieren
  • Exploratory Data Analysis

Datenanalyse mit Hive und Phoenix

  • Implementierung interaktiver Abfragen
  • Exploratory Data Analysis
  • Interaktive Verarbeitung mithilfe Apache Phoenix

Stream Analytics

Streaming Lösungen mit Kafka und HBase

  • Gestaltung und Bereitstellung Kafka Cluster
  • Veröffentlichen, konsumieren und bearbeiten
  • Daten speichern und abfragen

Entwickeln von Lösungen für Echtzeitvereinbarung von Big Data mit Apache Storm

  • Langzeitdaten
  • Daten streamen
  • Topologien erstellen
  • Apache Storm konfigurieren

Erstellung von Spark Streaming Applikationen

  • Arbeiten mit Spark Streaming
  • Spark Structured Streaming Applikationen erstellen
  • Persistence und Visualization

Diese Seite weiterempfehlen