Building Batch Data Analytics Solutions on AWS

Classroom training | German | Claim

Duration of training: 1 day

Objectives

In diesem Kurs lernen Sie die Erstellung von Batch-Datenanalyselösungen mit Amazon EMR, einem Managed Service für Apache Spark und Apache Hadoop. Sie lernen, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Bestandteile der Datensammlung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Sie lernen die Verwendung von EMR Notebooks zur Unterstützung von Workloads für Analysen und Machine Learning. Sie werden auch lernen, die Best Practices für Sicherheit, Performance und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

In diesem Kurs lernen Sie:

die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen zu vergleichen
Entwurf und Implementierung einer Batch-Datenanalyselösung
Identifizieren und Anwenden geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
Auswahl der geeigneten Instanz- und Node-Typen, Cluster, automatischen Skalierung und Netzwerktopologie für einen bestimmten Einsatzbereich
Verstehen, wie Datenspeicherung und -verarbeitung die Analyse- und Visualisierungsmechanismen beeinflussen die erforderlich sind, um verwertbare Erkenntnisse zu gewinnen
Sichern von Daten im Ruhezustand und bei der Übertragung
Monitoring von analytischen Workloads, um Probleme zu identifizieren und zu beheben
Anwendung von Best Practices für das Kostenmanagement

Dieser Kurs wird mit der offiziellen AWS Unterlage und Systemumgebung durchgeführt. Dieses Seminar ersetzt den Kurs Big Data on AWS.

Target audience

Ingenieure für Datenplattformen
Entwickler und Operatoren, die Datenanalyse-Pipelines aufbauen und verwalten

Requirements

Teilnehmer mit mindestens einem Jahr Erfahrung in der Verwaltung von Open-Source Data Frameworks wie Apache Spark oder Apache Hadoop

Agenda

Überblick über Data Analytics und die Data Pipeline

Einsatzmöglichkeiten der Datenanalyse
Verwendung der Data Pipeline für die Datenanalyse

Einführung in Amazon EMR

Verwendung von Amazon EMR in Analyselösungen
Architektur von Amazon EMR-Clustern
Interaktive Demo 1: Starten eines Amazon EMR-Clusters
Strategien zur Kostenverwaltung

Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

Speicheroptimierung mit Amazon EMR
Methoden zur Datenübernahme

High-Performance-Batch-Datenanalyse mit Apache Spark auf Amazon EMR

Anwendungsbereiche von Apache Spark auf Amazon EMR
Warum Apache Spark auf Amazon EMR
Spark-Konzepte
Transformation, Verarbeitung und Analyse
Verwendung von Notebooks mit Amazon EMR
Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive

Verwendung von Amazon EMR mit Hive zur Verarbeitung von Batch-Daten
Transformation, Verarbeitung und Analyse
Batch-Datenverarbeitung mit Amazon EMR und Hive
Einführung in Apache HBase auf Amazon EMR

Serverlose Datenverarbeitung

Serverlose Datenverarbeitung, -transformation und -analytik
Verwendung von AWS Glue mit Amazon EMR-Workloads
Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Security und Monitoring von Amazon EMR-Clustern

Sichern von EMR-Clustern
Client-seitige Verschlüsselung mit EMRFS
Überwachung und Fehlerbehebung von Amazon EMR-Clustern
Überprüfung des Verlaufs von Apache Spark-Clustern

Entwerfen von Batch-Datenanalyselösungen

Anwendungsfälle für die Batch-Datenanalytik
Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse

Entwickeln moderner Datenarchitekturen auf AWS

Moderne Datenarchitekturen

Objectives

In diesem Kurs lernen Sie:

die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen zu vergleichen
Entwurf und Implementierung einer Batch-Datenanalyselösung
Identifizieren und Anwenden geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
Auswahl der geeigneten Instanz- und Node-Typen, Cluster, automatischen Skalierung und Netzwerktopologie für einen bestimmten Einsatzbereich
Verstehen, wie Datenspeicherung und -verarbeitung die Analyse- und Visualisierungsmechanismen beeinflussen die erforderlich sind, um verwertbare Erkenntnisse zu gewinnen
Sichern von Daten im Ruhezustand und bei der Übertragung
Monitoring von analytischen Workloads, um Probleme zu identifizieren und zu beheben
Anwendung von Best Practices für das Kostenmanagement