Apache HBase

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

In diesem Kurs lernen Sie HBase zu konfigurieren, zu betreiben und nutzen zu können. Dazu werden Ihnen theoretische Inhalte vermittelt.

Außerdem wird das Wissen in aufeinander aufsetzenden Übungen praktisch angewandt.

Zielgruppe

(IT-)Architekt
(IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Spark Grundlagen Vertiefung
b. Kafka Vertiefung
c. Hadoop und Java – Vertiefung
d. Hadoop und Python - Vertiefung

Agenda

Strukturen – Die logische Sicht auf die Daten in HBase

HBase ist eine NoSQL-Datenbank vom Typ Column Family. Sie machen sich mit dem logischen Prinzip der Datenhaltung in HBase vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Daten eingeben und auslesen kann.

Storage - Die physische Sicht auf die Daten in HBase

Die Besonderheit von HBase ist die verteilte Datenhaltung über verschiedene Server-Instanzen mit dem Dateisystem HDFS. Sie lernen hier das Prinzip und die Organisation der physischen Datenhaltung in HBase kennen. Eine praktische Übung vertieft das Verständnis, wie Daten in HBase sicher und performant abgespeichert werden.

Praxis 1 - Das Design von Datenstrukturen für die NoSQL-Datenbank HBase

HBase ist eine NoSQL-Datenbank und kennt keine Relationen. In diesem Teil werden praktische Anforderungen diskutiert, die im relationalen Bereich üblicherweise als (1:N)- oder (M:N)-Relationen abgebildet werden, und vermitteln Ansätze für ihre alternative Umsetzung in HBase. Praktische Aufgabenstellungen aus den Übungen werden genutzt, um mögliche Umsetzungs-Alternativen zu diskutieren.

Praxis 2 - Programmatischer Zugriff auf Daten

HBase ist in Java programmiert, weshalb diese Programmiersprache allererste Wahl für produktive Anwendungen ist. Darüber hinaus existieren verschiedene Schnittstellen und Erweiterungen, die einen Zugriff mit anderen Sprachen oder der in der Programmiersprache Ruby codierten Shell ermöglichen. Sie lernen die Möglichkeiten des Zugriffs mit JRuby, Java und Python sowie Hive und Spark anhand praktischer Beispiele kennen. Darüber hinaus wird der SQL-basierte Zugriff via Phoenix demonstriert.

Praxis 3 - Betreiben von HBase im Hadoop Cluster

Bei dem Betrieb von HBase in einem Hadoop-Cluster sind eine Reihe von Anforderungen zu berücksichtigen, beispielsweise die Berücksichtigung möglicher Ausfallszenarien, BackUp-Szenarien wie Replikation und Snapshots sowie Desaster Recovery, der Bulk Load von Daten, die Ressourcenbeschränkung mit Quotas, die Zugriffsbeschränkung mittels Security und andere. Sie machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.

Praxis 4 - Optimierung von HBase im Hadoop Cluster

In diesem Praxisteil wird der Schwerpunkt auf praktische Aspekte gelegt und werden Optimierungshinweise gegeben. Im Mittelpunkt stehen allgemeine Fragestellungen wie: Wann ist HBase das "richtige" Werkzeug? Aber auch Orientierungshilfen für das "richtige" Sizing sowie die "richtigen" Parameter für HBase werden gegeben. Ein praktischer Teil zu Logging und Monitoring in HBase rundet diesen Abschnitt ab.