Building Batch Data Analytics Solutions on AWS

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 1 Tag

Ziele

In diesem Kurs lernen Sie die Erstellung von Batch-Datenanalyselösungen mit Amazon EMR, einem Managed Service für Apache Spark und Apache Hadoop. Sie lernen, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Bestandteile der Datensammlung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Sie lernen die Verwendung von EMR Notebooks zur Unterstützung von Workloads für Analysen und Machine Learning. Sie werden auch lernen, die Best Practices für Sicherheit, Performance und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

In diesem Kurs lernen Sie:

  • die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen zu vergleichen
  • Entwurf und Implementierung einer Batch-Datenanalyselösung
  • Identifizieren und Anwenden geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
  • Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
  • Auswahl der geeigneten Instanz- und Node-Typen, Cluster, automatischen Skalierung und Netzwerktopologie für einen bestimmten Einsatzbereich
  • Verstehen, wie Datenspeicherung und -verarbeitung die Analyse- und Visualisierungsmechanismen beeinflussen die erforderlich sind, um verwertbare Erkenntnisse zu gewinnen
  • Sichern von Daten im Ruhezustand und bei der Übertragung
  • Monitoring von analytischen Workloads, um Probleme zu identifizieren und zu beheben
  • Anwendung von Best Practices für das Kostenmanagement

Dieser Kurs wird mit der offiziellen AWS Unterlage und Systemumgebung durchgeführt. Dieses Seminar ersetzt den Kurs Big Data on AWS.

Zielgruppe

  • Ingenieure für Datenplattformen
  • Entwickler und Operatoren, die Datenanalyse-Pipelines aufbauen und verwalten

Voraussetzungen

  • Teilnehmer mit mindestens einem Jahr Erfahrung in der Verwaltung von Open-Source Data Frameworks wie Apache Spark oder Apache Hadoop

Agenda

Überblick über Data Analytics und die Data Pipeline

  • Einsatzmöglichkeiten der Datenanalyse
  • Verwendung der Data Pipeline für die Datenanalyse

Einführung in Amazon EMR

  • Verwendung von Amazon EMR in Analyselösungen
  • Architektur von Amazon EMR-Clustern
  • Interaktive Demo 1: Starten eines Amazon EMR-Clusters
  • Strategien zur Kostenverwaltung

Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

  • Speicheroptimierung mit Amazon EMR
  • Methoden zur Datenübernahme

High-Performance-Batch-Datenanalyse mit Apache Spark auf Amazon EMR

  • Anwendungsbereiche von Apache Spark auf Amazon EMR
  • Warum Apache Spark auf Amazon EMR
  • Spark-Konzepte
  • Transformation, Verarbeitung und Analyse
  • Verwendung von Notebooks mit Amazon EMR
  • Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive

  • Verwendung von Amazon EMR mit Hive zur Verarbeitung von Batch-Daten
  • Transformation, Verarbeitung und Analyse
  • Batch-Datenverarbeitung mit Amazon EMR und Hive
  • Einführung in Apache HBase auf Amazon EMR

Serverlose Datenverarbeitung

  • Serverlose Datenverarbeitung, -transformation und -analytik
  • Verwendung von AWS Glue mit Amazon EMR-Workloads
  • Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Security und Monitoring von Amazon EMR-Clustern

  • Sichern von EMR-Clustern
  • Client-seitige Verschlüsselung mit EMRFS
  • Überwachung und Fehlerbehebung von Amazon EMR-Clustern
  • Überprüfung des Verlaufs von Apache Spark-Clustern

Entwerfen von Batch-Datenanalyselösungen

  • Anwendungsfälle für die Batch-Datenanalytik
  • Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse

Entwickeln moderner Datenarchitekturen auf AWS

  • Moderne Datenarchitekturen

Ziele

In diesem Kurs lernen Sie die Erstellung von Batch-Datenanalyselösungen mit Amazon EMR, einem Managed Service für Apache Spark und Apache Hadoop. Sie lernen, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Bestandteile der Datensammlung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Sie lernen die Verwendung von EMR Notebooks zur Unterstützung von Workloads für Analysen und Machine Learning. Sie werden auch lernen, die Best Practices für Sicherheit, Performance und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

In diesem Kurs lernen Sie:

  • die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen zu vergleichen
  • Entwurf und Implementierung einer Batch-Datenanalyselösung
  • Identifizieren und Anwenden geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
  • Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
  • Auswahl der geeigneten Instanz- und Node-Typen, Cluster, automatischen Skalierung und Netzwerktopologie für einen bestimmten Einsatzbereich
  • Verstehen, wie Datenspeicherung und -verarbeitung die Analyse- und Visualisierungsmechanismen beeinflussen die erforderlich sind, um verwertbare Erkenntnisse zu gewinnen
  • Sichern von Daten im Ruhezustand und bei der Übertragung
  • Monitoring von analytischen Workloads, um Probleme zu identifizieren und zu beheben
  • Anwendung von Best Practices für das Kostenmanagement

Dieser Kurs wird mit der offiziellen AWS Unterlage und Systemumgebung durchgeführt. Dieses Seminar ersetzt den Kurs Big Data on AWS.

Zielgruppe

  • Ingenieure für Datenplattformen
  • Entwickler und Operatoren, die Datenanalyse-Pipelines aufbauen und verwalten

Voraussetzungen

  • Teilnehmer mit mindestens einem Jahr Erfahrung in der Verwaltung von Open-Source Data Frameworks wie Apache Spark oder Apache Hadoop

Agenda

Überblick über Data Analytics und die Data Pipeline

  • Einsatzmöglichkeiten der Datenanalyse
  • Verwendung der Data Pipeline für die Datenanalyse

Einführung in Amazon EMR

  • Verwendung von Amazon EMR in Analyselösungen
  • Architektur von Amazon EMR-Clustern
  • Interaktive Demo 1: Starten eines Amazon EMR-Clusters
  • Strategien zur Kostenverwaltung

Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

  • Speicheroptimierung mit Amazon EMR
  • Methoden zur Datenübernahme

High-Performance-Batch-Datenanalyse mit Apache Spark auf Amazon EMR

  • Anwendungsbereiche von Apache Spark auf Amazon EMR
  • Warum Apache Spark auf Amazon EMR
  • Spark-Konzepte
  • Transformation, Verarbeitung und Analyse
  • Verwendung von Notebooks mit Amazon EMR
  • Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive

  • Verwendung von Amazon EMR mit Hive zur Verarbeitung von Batch-Daten
  • Transformation, Verarbeitung und Analyse
  • Batch-Datenverarbeitung mit Amazon EMR und Hive
  • Einführung in Apache HBase auf Amazon EMR

Serverlose Datenverarbeitung

  • Serverlose Datenverarbeitung, -transformation und -analytik
  • Verwendung von AWS Glue mit Amazon EMR-Workloads
  • Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Security und Monitoring von Amazon EMR-Clustern

  • Sichern von EMR-Clustern
  • Client-seitige Verschlüsselung mit EMRFS
  • Überwachung und Fehlerbehebung von Amazon EMR-Clustern
  • Überprüfung des Verlaufs von Apache Spark-Clustern

Entwerfen von Batch-Datenanalyselösungen

  • Anwendungsfälle für die Batch-Datenanalytik
  • Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse

Entwickeln moderner Datenarchitekturen auf AWS

  • Moderne Datenarchitekturen

Tags

Diese Seite weiterempfehlen