Hortonworks HDP Fortgeschrittenenkurs

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 4 Tage

Ziele

In diesem Kurs installieren Sie einen Hadoop-Cluster mit vier Knoten, der als Basis für weitere praktische Übungen dient. Dabei lernen Sie die gesamte Bandbreite des Betriebs eines Hadoop-Clusters, einschließlich seiner Erweiterung, der Überwachung, der Analyse sowie der Optimierung kennen.

Weiterer Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil der eigenständigen Übungen beträgt etwa 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Hortonworks Einstieg" bzw. "Hadoop im Rechenzentrum Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. Hadoop im Rechenzentrum Überblick

Agenda

Überblick Hadoop-Distribution HDP von Hortonworks

Es wird die aktuelle Version 2.6 der Hortonworks Data Platform (HDP) vorgestellt und ein Überblick über die Bestandteile der Hadoop-Distribution gegeben und demonstriert. Dabei wird auch auf die Unterschiede zur Vorgängerversion 2.5 eingegangen und informiert, ob und unter welchen Bedingungen sich ein Umstieg lohnt.

Planung und Sizing einer Hortonworks-Distribution

Der Fokus liegt hier auf der Planung und dem Sizing eines zu installierenden Hadoop-Clusters. Auf der Grundlage der jeweiligen Einsatzszenarien sind die grundsätzlichen Hardware-Anforderungen herauszuarbeiten.

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers.

Sie führen ein Sizing beispielhaft anhand eines Template durch.

Installieren einer Hortonworks-Distribution mit Ambari

Die zentrale Verwaltungskomponente einer Hortonworks-Distribution ist das quelloffene Ambari. Dieses besteht aus einer zentralen Komponente sowie aus Agenten, die zunächst auf den künftigen Clusterknoten installiert werden. Nach der erfolgreichen Präparation der künftigen Clusterknoten wird Hadoop schrittweise unter der Steuerung von Ambari installiert. Nach Abschluss der Installation kann der Cluster in Betrieb genommen werden. Danach wird die Installation getestet. Dazu stehen in Hadoop eine Reihe von Testmodulen zur Verfügung, um die ordnungsgemäße Funktion sowie die Leistungsfähigkeit des installierten Clusters einzuschätzen. Sie planen und installieren die Hortonworks-Distribution HDP 2.5 mit ausgewählten Komponenten auf einem Cluster mit vier virtuellen Knoten, nehmen die installierte Hadoop-Umgebung in Betrieb und testen diese.

Upgrade-Aktivitäten mit Ambari

In einem HDP-Cluster können eine oder mehrere der nachfolgend aufgeführten Upgrade-Aktivitäten anstehen:

  • Upgrade des einem Clusterknotens zugrundeliegenden Betriebssystems
  • Upgrade der Verwaltungs-Komponente Ambari
  • Upgrade der Hortonworks-Distribution.

Es werden die für die einzelnen Aktivitäten erforderlichen Schritte vorgestellt und erläutert.

Sie planen und migrieren den Versionstand der Hortonworks-Distribution auf die Version 2.6.

Erweiterung einer Hortonwork-Distribution mit Ambari

Die Verwaltungs-Komponente Ambari kann genutzt werden, um weitere Dienste und/oder weitere Hardware-Komponenten einzufügen. Die Teilnehmer fügen dem Hadoop-Cluster einen neuen Knoten hinzu und aktivieren weitere Komponenten.

Alternativ: Installation, Upgrade oder Erweitern einer Hortonwork-Distribution mit der Konsole

Alternativ zur Installation, zum Upgrade oder zum Erweitern einer Hortonworks-Distribution mit Ambari kann die entsprechende Aktivität auch manuell auf der Konsole ausgeführt werden. Die Vorgehensweise wird in diesem Modul erläutert und demonstriert.

Verwalten einer Hortonworks-Distribution mit Ambari

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten.

In diesem Modul liegt der Schwerpunkt auf den laufenden Aktivitäten in einem Hadoop-Cluster. Die Teilnehmer sammeln praktische Erfahrungen zu Aktivitäten auf Cluster-Ebene, auf Dienst-Ebene, auf Knoten-Ebene sowie auf Dateisystem-Ebene und lernen die erforderlichen Werkzeuge in der Hortonworks-Distribution kennen.

Sichern und Schützen einer Hortonworks-Distribution

Das Sichern und Schützen einer Hortonworks-Distribution ist eine umfangreiche Thematik, woraus einige wichtige Themen ausgewählt, vorgestellt, demonstriert und praktisch angewendet werden. Dazu gehören

  • Das Einrichten von Hochverfügbarkeit für Komponenten in HDP 2.6;
  • Das Generieren von Snapshots in HDP 2.6;
  • Notwendige BackUps in HDP 2.6;
  • Die Replikation wichtiger Inhalte in HDP 2.6;
  • Das Einrichten und die Anwendung der Komponente Ranger in HDP 2.6.

Sie richten die Hochverfügbarkeit für den Name Node ihres Clusters ein, generieren Snapshots aus HDFS-Verzeichnissen, richten die Replikation von Daten für HBase ein und aktivieren die Komponente Ranger.

Überwachen und Analysieren einer Hortonworks-Distribution

Jede Hadoop-Distribution generiert eine Vielzahl von Informationen, die in verschiedenen Log-Dateien gespeichert werden. Darüber hinaus werden sowohl vom Betriebssystem als auch von den Komponenten der Distribution permanent Messwerte bereitgestellt.

Zentrale Komponente für die Persistierung und Visualisierung dieser Messwerte ist Ambari Metrics, die in diesem Modul vorgestellt und von den Teilnehmern genutzt wird. Darüber hinaus lernen die Teilnehmer Möglichkeiten zu nutzen, um mit Hadoop-eigenen Bordmitteln die Daten zu analysieren und Logdateien auszuwerten.

Optimieren einer Hortonworks-Distribution

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal.

Die Teilnehmer lernen, die Betriebswerte für ausgewählte Komponenten zu interpretieren und eine Strategie zu entwickeln, um die Parametereinstellungen zu optimieren.

Ziele

In diesem Kurs installieren Sie einen Hadoop-Cluster mit vier Knoten, der als Basis für weitere praktische Übungen dient. Dabei lernen Sie die gesamte Bandbreite des Betriebs eines Hadoop-Clusters, einschließlich seiner Erweiterung, der Überwachung, der Analyse sowie der Optimierung kennen.

Weiterer Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil der eigenständigen Übungen beträgt etwa 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Hortonworks Einstieg" bzw. "Hadoop im Rechenzentrum Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. Hadoop im Rechenzentrum Überblick

Agenda

Überblick Hadoop-Distribution HDP von Hortonworks

Es wird die aktuelle Version 2.6 der Hortonworks Data Platform (HDP) vorgestellt und ein Überblick über die Bestandteile der Hadoop-Distribution gegeben und demonstriert. Dabei wird auch auf die Unterschiede zur Vorgängerversion 2.5 eingegangen und informiert, ob und unter welchen Bedingungen sich ein Umstieg lohnt.

Planung und Sizing einer Hortonworks-Distribution

Der Fokus liegt hier auf der Planung und dem Sizing eines zu installierenden Hadoop-Clusters. Auf der Grundlage der jeweiligen Einsatzszenarien sind die grundsätzlichen Hardware-Anforderungen herauszuarbeiten.

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers.

Sie führen ein Sizing beispielhaft anhand eines Template durch.

Installieren einer Hortonworks-Distribution mit Ambari

Die zentrale Verwaltungskomponente einer Hortonworks-Distribution ist das quelloffene Ambari. Dieses besteht aus einer zentralen Komponente sowie aus Agenten, die zunächst auf den künftigen Clusterknoten installiert werden. Nach der erfolgreichen Präparation der künftigen Clusterknoten wird Hadoop schrittweise unter der Steuerung von Ambari installiert. Nach Abschluss der Installation kann der Cluster in Betrieb genommen werden. Danach wird die Installation getestet. Dazu stehen in Hadoop eine Reihe von Testmodulen zur Verfügung, um die ordnungsgemäße Funktion sowie die Leistungsfähigkeit des installierten Clusters einzuschätzen. Sie planen und installieren die Hortonworks-Distribution HDP 2.5 mit ausgewählten Komponenten auf einem Cluster mit vier virtuellen Knoten, nehmen die installierte Hadoop-Umgebung in Betrieb und testen diese.

Upgrade-Aktivitäten mit Ambari

In einem HDP-Cluster können eine oder mehrere der nachfolgend aufgeführten Upgrade-Aktivitäten anstehen:

  • Upgrade des einem Clusterknotens zugrundeliegenden Betriebssystems
  • Upgrade der Verwaltungs-Komponente Ambari
  • Upgrade der Hortonworks-Distribution.

Es werden die für die einzelnen Aktivitäten erforderlichen Schritte vorgestellt und erläutert.

Sie planen und migrieren den Versionstand der Hortonworks-Distribution auf die Version 2.6.

Erweiterung einer Hortonwork-Distribution mit Ambari

Die Verwaltungs-Komponente Ambari kann genutzt werden, um weitere Dienste und/oder weitere Hardware-Komponenten einzufügen. Die Teilnehmer fügen dem Hadoop-Cluster einen neuen Knoten hinzu und aktivieren weitere Komponenten.

Alternativ: Installation, Upgrade oder Erweitern einer Hortonwork-Distribution mit der Konsole

Alternativ zur Installation, zum Upgrade oder zum Erweitern einer Hortonworks-Distribution mit Ambari kann die entsprechende Aktivität auch manuell auf der Konsole ausgeführt werden. Die Vorgehensweise wird in diesem Modul erläutert und demonstriert.

Verwalten einer Hortonworks-Distribution mit Ambari

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten.

In diesem Modul liegt der Schwerpunkt auf den laufenden Aktivitäten in einem Hadoop-Cluster. Die Teilnehmer sammeln praktische Erfahrungen zu Aktivitäten auf Cluster-Ebene, auf Dienst-Ebene, auf Knoten-Ebene sowie auf Dateisystem-Ebene und lernen die erforderlichen Werkzeuge in der Hortonworks-Distribution kennen.

Sichern und Schützen einer Hortonworks-Distribution

Das Sichern und Schützen einer Hortonworks-Distribution ist eine umfangreiche Thematik, woraus einige wichtige Themen ausgewählt, vorgestellt, demonstriert und praktisch angewendet werden. Dazu gehören

  • Das Einrichten von Hochverfügbarkeit für Komponenten in HDP 2.6;
  • Das Generieren von Snapshots in HDP 2.6;
  • Notwendige BackUps in HDP 2.6;
  • Die Replikation wichtiger Inhalte in HDP 2.6;
  • Das Einrichten und die Anwendung der Komponente Ranger in HDP 2.6.

Sie richten die Hochverfügbarkeit für den Name Node ihres Clusters ein, generieren Snapshots aus HDFS-Verzeichnissen, richten die Replikation von Daten für HBase ein und aktivieren die Komponente Ranger.

Überwachen und Analysieren einer Hortonworks-Distribution

Jede Hadoop-Distribution generiert eine Vielzahl von Informationen, die in verschiedenen Log-Dateien gespeichert werden. Darüber hinaus werden sowohl vom Betriebssystem als auch von den Komponenten der Distribution permanent Messwerte bereitgestellt.

Zentrale Komponente für die Persistierung und Visualisierung dieser Messwerte ist Ambari Metrics, die in diesem Modul vorgestellt und von den Teilnehmern genutzt wird. Darüber hinaus lernen die Teilnehmer Möglichkeiten zu nutzen, um mit Hadoop-eigenen Bordmitteln die Daten zu analysieren und Logdateien auszuwerten.

Optimieren einer Hortonworks-Distribution

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal.

Die Teilnehmer lernen, die Betriebswerte für ausgewählte Komponenten zu interpretieren und eine Strategie zu entwickeln, um die Parametereinstellungen zu optimieren.

Tags

Diese Seite weiterempfehlen