Cloudera CDH Fortgeschrittenenkurs

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 4 Tage

Ziele

In diesem Kurs lernen Sie die Installation eines Hadoop-Clusters mit vier Knoten. Dieser dient als Basis für weitere praktische Übungen. Dabei lernen Sie die gesamte Bandbreite des Betriebs eines Hadoop-Clusters kennen.

Weiterer Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil der eigenständigen Übungen beträgt 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Cloudera Einstieg" bzw. "Hadoop im Rechenzentrum Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. Hadoop im Rechenzentrum Überblick

Agenda

Überblick Hadoop-Distribution HDP von Cloudera

Es wird die aktuelle Version 5.12 von Cloudera (CDH) vorgestellt und ein Überblick über die Bestandteile der Hadoop-Distribution gegeben und demonstriert. Dabei wird auch auf die Unterschiede zur Vorgängerversion 5.11 eingegangen und ausgeführt, ob und unter welchen Bedingungen sich ein Umstieg lohnt.

Planung und Sizing einer Cloudera-Distribution

Der Schwerpunkt dieses Moduls liegt auf der Planung und dem Sizing eines zu installierenden Hadoop-Clusters. Auf der Grundlage der jeweiligen Einsatzszenarien werden die grundsätzlichen Hardware-Anforderungen herausgearbeitet.

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers.

Sie führen ein Sizing beispielhaft anhand eines Template durch.

Installieren einer Cloudera-Distribution mit Cloudera Manager

Cloudera bietet verschiedene Installationspfade an. Die zugrundeliegende Systematik wird zunächst vorgestellt. Die zentrale Verwaltungskomponente einer Cloudera-Distribution ist der proprietäre Cloudera Manager. Dieses besteht aus einer zentralen Komponente sowie aus Agenten, die zunächst auf den künftigen Clusterknoten installiert werden. Nach der erfolgreichen Präparation der künftigen Clusterknoten wird Hadoop schrittweise unter der Steuerung von Cloudera Manager installiert. Nach Abschluss der Installation kann der Cluster in Betrieb genommen werden. Anschließend wird die Installation getestet. Dazu stehen in Hadoop eine Reihe von Testmodulen zur Verfügung, um die ordnungsgemäße Funktion sowie die Leistungsfähigkeit des installierten Clusters einzuschätzen. Sie planen und installieren die Cloudera-Distribution CDH 5.11 mit ausgewählten Komponenten auf einem Cluster mit vier virtuellen Knoten und nehmen die installierte Hadoop-Umgebung in Betrieb und testen diese.

Upgrade-Aktivitäten mit Cloudera Manager

In einem CDH-Cluster können eine oder mehrere der nachfolgend aufgeführten Upgrade-Aktivitäten anstehen:

  • Upgrade des einem Clusterknotens zugrundeliegenden Betriebssystems
  • Upgrade der Verwaltungs-Komponente Cloudera Manager
  • Upgrade der Cloudera-Distribution

Es werden die für die einzelnen Aktivitäten erforderlichen Schritte vorgestellt und erläutert. Sie planen und migrieren den Versionstand der Cloudera-Distribution auf die Version 5.12.

Erweitern einer Cloudera-Distribution mit Cloudera Manager

Die Verwaltungs-Komponente Cloudera Manager kann genutzt werden, um weitere Dienste und/oder weitere Hardware-Komponenten einzufügen. Sie fügen dem Hadoop-Cluster einen neuen Knoten hinzu und aktivieren weitere Komponenten.

Alternativ: Installation, Upgrade oder Erweitern einer Cloudera-Distribution mit der Konsole

Alternativ zur Installation, zum Upgrade oder zum Erweitern einer Cloudera-Distribution mit Cloudera Manager kann die entsprechende Aktivität auch manuell auf der Konsole ausgeführt werden. Die Vorgehensweise wird in diesem Modul erläutert und demonstriert.

Verwaltung einer Cloudera-Distribution mit Cloudera Manager

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten.

In diesem Modul liegt der Schwerpunkt auf den laufenden Aktivitäten in einem Hadoop-Cluster. Die Teilnehmer sammeln praktische Erfahrungen zu Aktivitäten auf Cluster-Ebene, auf Dienst-Ebene, auf Knoten-Ebene sowie auf Dateisystem-Ebene und lernen die erforderlichen Werkzeuge in der Cloudera-Distribution kennen.

Sichern und Schützen einer Cloudera-Distribution

Das Sichern und Schützen einer Cloudera-Distribution ist eine umfangreiche Thematik, woraus einige wichtige Themen ausgewählt, vorgestellt, demonstriert und praktisch angewendet werden. Dazu gehören

  • Das Einrichten von Hochverfügbarkeit für Komponenten in CDH 5.12
  • Das Generieren von Snapshots in CDH 5.12
  • Notwendige BackUps in CDH 5.12
  • Die Replikation wichtiger Inhalte in CDH 5.12
  • Das Einrichten und die Anwendung der Komponente Navigator in CDH 5.12

Die Teilnehmer richten die Hochverfügbarkeit für den Name Node ihres Clusters ein, generieren Snapshots aus HDFS-Verzeichnissen, richten die Replikation von Daten für HBase ein und aktivieren die Komponente Navigator.

Eine Cloudera-Distribution überwachen und analysieren

Jede Hadoop-Distribution generiert eine Vielzahl von Informationen, die in verschiedenen Log-Dateien gespeichert werden. Darüber hinaus werden sowohl vom Betriebssystem als auch von den Komponenten der Distribution permanent Messwerte bereitgestellt.

Zentrale Komponente für die Persistierung und Visualisierung dieser Messwerte ist der Cloudera Manager, die in diesem Modul vorgestellt und von den Teilnehmern genutzt wird. Darüber hinaus lernen die Teilnehmer Möglichkeiten zu nutzen, um mit Hadoop-eigenen Bordmitteln die Daten zu analysieren und Logdateien auszuwerten.

Optimierung einer Cloudera-Distribution

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal.

Die Teilnehmer lernen, die Betriebswerte für ausgewählte Komponenten zu interpretieren und eine Strategie zu entwickeln, um die Parametereinstellungen zu optimieren.

Ziele

In diesem Kurs lernen Sie die Installation eines Hadoop-Clusters mit vier Knoten. Dieser dient als Basis für weitere praktische Übungen. Dabei lernen Sie die gesamte Bandbreite des Betriebs eines Hadoop-Clusters kennen.

Weiterer Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil der eigenständigen Übungen beträgt 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Cloudera Einstieg" bzw. "Hadoop im Rechenzentrum Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. Hadoop im Rechenzentrum Überblick

Agenda

Überblick Hadoop-Distribution HDP von Cloudera

Es wird die aktuelle Version 5.12 von Cloudera (CDH) vorgestellt und ein Überblick über die Bestandteile der Hadoop-Distribution gegeben und demonstriert. Dabei wird auch auf die Unterschiede zur Vorgängerversion 5.11 eingegangen und ausgeführt, ob und unter welchen Bedingungen sich ein Umstieg lohnt.

Planung und Sizing einer Cloudera-Distribution

Der Schwerpunkt dieses Moduls liegt auf der Planung und dem Sizing eines zu installierenden Hadoop-Clusters. Auf der Grundlage der jeweiligen Einsatzszenarien werden die grundsätzlichen Hardware-Anforderungen herausgearbeitet.

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers.

Sie führen ein Sizing beispielhaft anhand eines Template durch.

Installieren einer Cloudera-Distribution mit Cloudera Manager

Cloudera bietet verschiedene Installationspfade an. Die zugrundeliegende Systematik wird zunächst vorgestellt. Die zentrale Verwaltungskomponente einer Cloudera-Distribution ist der proprietäre Cloudera Manager. Dieses besteht aus einer zentralen Komponente sowie aus Agenten, die zunächst auf den künftigen Clusterknoten installiert werden. Nach der erfolgreichen Präparation der künftigen Clusterknoten wird Hadoop schrittweise unter der Steuerung von Cloudera Manager installiert. Nach Abschluss der Installation kann der Cluster in Betrieb genommen werden. Anschließend wird die Installation getestet. Dazu stehen in Hadoop eine Reihe von Testmodulen zur Verfügung, um die ordnungsgemäße Funktion sowie die Leistungsfähigkeit des installierten Clusters einzuschätzen. Sie planen und installieren die Cloudera-Distribution CDH 5.11 mit ausgewählten Komponenten auf einem Cluster mit vier virtuellen Knoten und nehmen die installierte Hadoop-Umgebung in Betrieb und testen diese.

Upgrade-Aktivitäten mit Cloudera Manager

In einem CDH-Cluster können eine oder mehrere der nachfolgend aufgeführten Upgrade-Aktivitäten anstehen:

  • Upgrade des einem Clusterknotens zugrundeliegenden Betriebssystems
  • Upgrade der Verwaltungs-Komponente Cloudera Manager
  • Upgrade der Cloudera-Distribution

Es werden die für die einzelnen Aktivitäten erforderlichen Schritte vorgestellt und erläutert. Sie planen und migrieren den Versionstand der Cloudera-Distribution auf die Version 5.12.

Erweitern einer Cloudera-Distribution mit Cloudera Manager

Die Verwaltungs-Komponente Cloudera Manager kann genutzt werden, um weitere Dienste und/oder weitere Hardware-Komponenten einzufügen. Sie fügen dem Hadoop-Cluster einen neuen Knoten hinzu und aktivieren weitere Komponenten.

Alternativ: Installation, Upgrade oder Erweitern einer Cloudera-Distribution mit der Konsole

Alternativ zur Installation, zum Upgrade oder zum Erweitern einer Cloudera-Distribution mit Cloudera Manager kann die entsprechende Aktivität auch manuell auf der Konsole ausgeführt werden. Die Vorgehensweise wird in diesem Modul erläutert und demonstriert.

Verwaltung einer Cloudera-Distribution mit Cloudera Manager

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten.

In diesem Modul liegt der Schwerpunkt auf den laufenden Aktivitäten in einem Hadoop-Cluster. Die Teilnehmer sammeln praktische Erfahrungen zu Aktivitäten auf Cluster-Ebene, auf Dienst-Ebene, auf Knoten-Ebene sowie auf Dateisystem-Ebene und lernen die erforderlichen Werkzeuge in der Cloudera-Distribution kennen.

Sichern und Schützen einer Cloudera-Distribution

Das Sichern und Schützen einer Cloudera-Distribution ist eine umfangreiche Thematik, woraus einige wichtige Themen ausgewählt, vorgestellt, demonstriert und praktisch angewendet werden. Dazu gehören

  • Das Einrichten von Hochverfügbarkeit für Komponenten in CDH 5.12
  • Das Generieren von Snapshots in CDH 5.12
  • Notwendige BackUps in CDH 5.12
  • Die Replikation wichtiger Inhalte in CDH 5.12
  • Das Einrichten und die Anwendung der Komponente Navigator in CDH 5.12

Die Teilnehmer richten die Hochverfügbarkeit für den Name Node ihres Clusters ein, generieren Snapshots aus HDFS-Verzeichnissen, richten die Replikation von Daten für HBase ein und aktivieren die Komponente Navigator.

Eine Cloudera-Distribution überwachen und analysieren

Jede Hadoop-Distribution generiert eine Vielzahl von Informationen, die in verschiedenen Log-Dateien gespeichert werden. Darüber hinaus werden sowohl vom Betriebssystem als auch von den Komponenten der Distribution permanent Messwerte bereitgestellt.

Zentrale Komponente für die Persistierung und Visualisierung dieser Messwerte ist der Cloudera Manager, die in diesem Modul vorgestellt und von den Teilnehmern genutzt wird. Darüber hinaus lernen die Teilnehmer Möglichkeiten zu nutzen, um mit Hadoop-eigenen Bordmitteln die Daten zu analysieren und Logdateien auszuwerten.

Optimierung einer Cloudera-Distribution

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal.

Die Teilnehmer lernen, die Betriebswerte für ausgewählte Komponenten zu interpretieren und eine Strategie zu entwickeln, um die Parametereinstellungen zu optimieren.

Diese Seite weiterempfehlen