Hadoop im Rechenzentrum

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 1 Tag

Ziele

In diesem Kurs lernen Sie einen Hadoop-Cluster im Rechenzentrum zu etablieren.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 200
  • Darreichung: PowerPoint-Präsentation, Live-Demo.
  • Materialien: Präsentation in elektronischer Form (Format .PDF)
  • Credits: Nein (Credits für die Zertifizierung)

Zielgruppe

  • Entscheider
  • (IT-)Architekt
  • Projektmanager
  • Administratoren

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung sowie Grundkenntnisse über Big Data und Hadoop erforderlich.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Hadoop Datentechnologien Überblick
b. Big Data Architekturen Überblick

Agenda

Überblick Hadoop-Distributionen von Cloudera und Hortonworks

Der Kurs startet mit einem kurzen Überblick zu den einzelnen Komponenten des Hadoop-Frameworks, dem aktuellen Entwicklungsstand und dem Status in den beiden wichtigsten Hadoop-Distributionen von Cloudera und Hortonworks. In einer Übersicht werden die beiden Hadoop-Distributionen gegenübergestellt und herausgearbeitet, worin die Vor- und Nachteile der einzelnen Angebote bestehen.

Grundsätzliche Anforderungen an Hardware

In Abhängigkeit von den jeweiligen Einsatz-Szenarien werden die grundsätzlichen Hardware-Anforderungen herausgearbeitet. Neben der Zahl der CPU-Kerne, der internen Busgeschwindigkeit und der Transfergeschwindigkeit stellt in zunehmendem Maße auch die Energiebilanz eine wichtige Entscheidungsgröße dar. Am Ende ist jedoch alles eine Frage des Preises und so werden für eine grobe Orientierung Kosten-Leistungsklassen erstellt.

Sizing eines Hadoop-Clusters

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers. Das Sizing wird beispielhaft anhand eines Template demonstriert.

Installation oder Upgrade eines Hadoop-Clusters

Die Installation eines Hadoop-Clusters kann heute vollständig oder teilweise toolgestützt erfolgen. Gleiches trifft auf ein Upgrade zu, wenn eine ältere Hadoop-Version aktualisiert werden soll. In diesem Modul werden die Voraussetzungen für die Installation erläutert und die Installationsschritte für die beiden Distributionen dargestellt.

Betrieb eines Hadoop-Clusters

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten. Es wird eine Übersicht der wichtigsten Aufgabenstellungen gegeben und ihre Umsetzung demonstriert.

Optimierung eines Hadoop-Clusters

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal. Hier wird dargestellt, wie der Cluster überwacht wird, wie die umfangreiche Protokollierung analysiert und welche Hilfsmittel zur Optimierung zur Verfügung stehen.

Ziele

In diesem Kurs lernen Sie einen Hadoop-Cluster im Rechenzentrum zu etablieren.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 200
  • Darreichung: PowerPoint-Präsentation, Live-Demo.
  • Materialien: Präsentation in elektronischer Form (Format .PDF)
  • Credits: Nein (Credits für die Zertifizierung)

Zielgruppe

  • Entscheider
  • (IT-)Architekt
  • Projektmanager
  • Administratoren

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung sowie Grundkenntnisse über Big Data und Hadoop erforderlich.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Hadoop Datentechnologien Überblick
b. Big Data Architekturen Überblick

Agenda

Überblick Hadoop-Distributionen von Cloudera und Hortonworks

Der Kurs startet mit einem kurzen Überblick zu den einzelnen Komponenten des Hadoop-Frameworks, dem aktuellen Entwicklungsstand und dem Status in den beiden wichtigsten Hadoop-Distributionen von Cloudera und Hortonworks. In einer Übersicht werden die beiden Hadoop-Distributionen gegenübergestellt und herausgearbeitet, worin die Vor- und Nachteile der einzelnen Angebote bestehen.

Grundsätzliche Anforderungen an Hardware

In Abhängigkeit von den jeweiligen Einsatz-Szenarien werden die grundsätzlichen Hardware-Anforderungen herausgearbeitet. Neben der Zahl der CPU-Kerne, der internen Busgeschwindigkeit und der Transfergeschwindigkeit stellt in zunehmendem Maße auch die Energiebilanz eine wichtige Entscheidungsgröße dar. Am Ende ist jedoch alles eine Frage des Preises und so werden für eine grobe Orientierung Kosten-Leistungsklassen erstellt.

Sizing eines Hadoop-Clusters

Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers. Das Sizing wird beispielhaft anhand eines Template demonstriert.

Installation oder Upgrade eines Hadoop-Clusters

Die Installation eines Hadoop-Clusters kann heute vollständig oder teilweise toolgestützt erfolgen. Gleiches trifft auf ein Upgrade zu, wenn eine ältere Hadoop-Version aktualisiert werden soll. In diesem Modul werden die Voraussetzungen für die Installation erläutert und die Installationsschritte für die beiden Distributionen dargestellt.

Betrieb eines Hadoop-Clusters

Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten. Es wird eine Übersicht der wichtigsten Aufgabenstellungen gegeben und ihre Umsetzung demonstriert.

Optimierung eines Hadoop-Clusters

Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal. Hier wird dargestellt, wie der Cluster überwacht wird, wie die umfangreiche Protokollierung analysiert und welche Hilfsmittel zur Optimierung zur Verfügung stehen.

Tags

Diese Seite weiterempfehlen