Apache HDFS
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 2 Tage
Ziele
In diesem Kurs lernen Sie die Unterscheide zwischen HDFS un dem klassischen Ansatz für Dateisysteme kennen und den effektiven Einsatz.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
- (Fach-)Anwender
- Projektmanager
Voraussetzungen
IT-Grundkenntnisse sowie Grundkenntnisse über Big Data und Hadoop werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Agenda
Strukturen – Die logische Sicht auf die Daten in HDFS
Das verteilte Dateisystem HDFS ist das Herzstück von Hadoop. Sie machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien erstellen und auslesen kann.
Storage - Die physische Sicht auf die Daten in HDFS
Die Besonderheit von HDFS ist die verteilte Datenhaltung über verschiedene Server-Instanzen, den sogenannten Data Nodes. Sie lernen hier das Prinzip und die Organisation der physischen Datenhaltung im darunterliegenden Dateisystem des Betriebssystems kennen und wie die Verfügbarkeit der Daten sichergestellt wird. Diese Erkenntnisse werden durch eine praktische Übung vertieft.
Praxis 1 - Programmatischer Zugriff auf die Daten im HDFS
HDFS ist in Java programmiert, weshalb diese Programmiersprache allererste Wahl für produktive Anwendungen ist. Darüber hinaus existieren verschiedene Schnittstellen, die einen Zugriff mit anderen Sprachen oder Werkzeugen ermöglichen.
Praxis 2 - Verwalten von HDFS im Hadoop Cluster
Bei dem Betrieb eines Hadoop-Clusters sind eine Reihe von Anforderungen zu bedenken, beispielsweise die Berücksichtigung möglicher Ausfallszenarien, BackUp-Szenarien wie Replikation und Snapshots sowie Desaster Recovery, der Bulk Load von Daten, die Archivierung, die Ressourcenbeschränkung mit Quotas, die Zugriffsbeschränkung mittels Security und andere. Sie machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.
Praxis 3 - Optimierung von HDFS im Hadoop Cluster
In diesem Praxisteil wird der Schwerpunkt auf praktische Aspekte gelegt und werden Optimierungshinweise gegeben. Im Mittelpunkt stehen allgemeine Fragestellungen wie: Was sind die "richtigen" Dateien für HDFS? Aber auch Orientierungshilfen für das "richtige" Sizing sowie die "richtigen" Parameter für HDFS werden gegeben. Ein praktischer Teil zu Logging und Monitoring für das HDFS rundet diesen Abschnitt ab.
Ziele
In diesem Kurs lernen Sie die Unterscheide zwischen HDFS un dem klassischen Ansatz für Dateisysteme kennen und den effektiven Einsatz.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
- (Fach-)Anwender
- Projektmanager
Voraussetzungen
IT-Grundkenntnisse sowie Grundkenntnisse über Big Data und Hadoop werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Agenda
Strukturen – Die logische Sicht auf die Daten in HDFS
Das verteilte Dateisystem HDFS ist das Herzstück von Hadoop. Sie machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien erstellen und auslesen kann.
Storage - Die physische Sicht auf die Daten in HDFS
Die Besonderheit von HDFS ist die verteilte Datenhaltung über verschiedene Server-Instanzen, den sogenannten Data Nodes. Sie lernen hier das Prinzip und die Organisation der physischen Datenhaltung im darunterliegenden Dateisystem des Betriebssystems kennen und wie die Verfügbarkeit der Daten sichergestellt wird. Diese Erkenntnisse werden durch eine praktische Übung vertieft.
Praxis 1 - Programmatischer Zugriff auf die Daten im HDFS
HDFS ist in Java programmiert, weshalb diese Programmiersprache allererste Wahl für produktive Anwendungen ist. Darüber hinaus existieren verschiedene Schnittstellen, die einen Zugriff mit anderen Sprachen oder Werkzeugen ermöglichen.
Praxis 2 - Verwalten von HDFS im Hadoop Cluster
Bei dem Betrieb eines Hadoop-Clusters sind eine Reihe von Anforderungen zu bedenken, beispielsweise die Berücksichtigung möglicher Ausfallszenarien, BackUp-Szenarien wie Replikation und Snapshots sowie Desaster Recovery, der Bulk Load von Daten, die Archivierung, die Ressourcenbeschränkung mit Quotas, die Zugriffsbeschränkung mittels Security und andere. Sie machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.
Praxis 3 - Optimierung von HDFS im Hadoop Cluster
In diesem Praxisteil wird der Schwerpunkt auf praktische Aspekte gelegt und werden Optimierungshinweise gegeben. Im Mittelpunkt stehen allgemeine Fragestellungen wie: Was sind die "richtigen" Dateien für HDFS? Aber auch Orientierungshilfen für das "richtige" Sizing sowie die "richtigen" Parameter für HDFS werden gegeben. Ein praktischer Teil zu Logging und Monitoring für das HDFS rundet diesen Abschnitt ab.