Hadoop Datentechnologien
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 3 Tage
Ziele
In diesem Kurs lernen Sie die Komponenten im Hadoop-Ökosystem kennen. Dabei setzt er auf dem einführenden Kurs „Big Data Überblick“ auf und dient als Bindeglied zu den vertiefenden Kursen „Apache HDFS Vertiefung“, „Apache HBase Vertiefung“, „Apache Hive Vertiefung“, „Apache Spark Vertiefung“ und „Apache Impala Vertiefung“.
Weitere Kursinfos:
- Schwierigkeitsgrad: 200
- Darreichung: PowerPoint-Präsentation, Live-Demos.
- Materialien: Präsentation in elektronischer Form (Format .PDF).
- Credits: Ja (Credits für die Zertifizierung)
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache HDFS Vertiefung
b. Apache HBase Vertiefung
c. Apache Spark Vertiefung
d. Apache Impala Vertiefung
Agenda
Das Dateisystem HDFS – Die Basis
Das Kernstück von Hadoop ist ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS). Die nachfolgend vorgestellten Komponenten setzen darauf auf, deshalb ist es wichtig, die Funktionsweise von HDFS zu verstehen und welche Möglichkeiten bestehen, den Durchsatz zu vergrößern und Zugriffszeiten zu minimieren. Dies wird anhand praktischer Demonstrationen verdeutlicht.
Die NoSQL-Datenbank HBase
HBase ist die am häufigsten zum Einsatz kommende Datenbank im Hadoop-Umfeld. Die Komponente ist deshalb sehr leistungsstark und entsprechend ausgereift. HBase steht für den Typ NoSQL-Datenbank, weshalb sich Datenhaltung und Zugriff auf die Daten gänzlich anders darstellen als im relationalen Umfeld. Sie erhalten einen soliden Überblick, der mit zahlreichen praktischen Demos vertieft wird.
Accumulo – Die Alternative für HBase
Die HBase-Alternative Accumulo ist im Kern vergleichbar mit HBase, da sie ebenfalls Googles "Big Table"-Implementierung zum Vorbild hat. Allerdings unterscheidet sie sich in der Implementierung von der von HBase. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Accumulo eingegangen und werden Beispiele aufgezeigt, wo der Einsatz von Accumulo Sinn macht.
Der Columnar Store Druid
Druid ist eine verteilte Datenbank, die auf einer spaltenorientierten Speicherung der Daten beruht. Die physische Architektur der Datenhaltung ist optimiert für typische Data Warehouse-Einsatzszenarien mit Filterbedingungen und Gruppierungen über Dimensionen, d.h. Daten werden spaltenorientiert und verdichtet in Segmenten abgespeichert. Druid-Datenbanken können zeitnah aktualisiert und abgefragt werden. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Druid eingegangen und gezeigt, wie Druid eingesetzt werden kann.
Kudu – Die Alternative zu Druid
Kudu ist eine relativ junge Open Source-Datenbank, die von Cloudera initiiert wurde und deshalb eher im Umfeld der Hadoop-Distribution von Cloudera vorzufinden ist. Die Implementierung stellt eine gewisse Abkehr von dem sehr flexiblen Ansatz in HBase und Accumulo dar: Tabellen mit typdefinierten Spalten erlauben eine spaltenorientierte, hochverdichtete Speicherung der Daten. In Verbindung mit Impala ist darüber hinaus ein SQL-basierter Zugriff auf die Daten möglich.
HAWQ – Ein neuer Standard?
HAWQ, ursprünglich von Pivotal entwickelt und mittlerweile unter dem Dach der Apache Software Foundation als Open Source veröffentlich, ist ein verteilter Datenspeicher, der den nativen SQL-Zugriff erlaubt. HAWQ ist flexibler im Zugriff auf die Daten und besser am SQL-Standard orientiert als andere SQL-basierte Ansätze in Hadoop, allerdings ist der Aufwand dafür auch signifikant höher. HAWQ kann recht gut in die Hadoop-Distribution von Hortonworks integriert werden, weshalb die Komponente eher in diesem Umfeld zu finden ist. Die Möglichkeiten von HAWQ werden demonstriert.
Hive – Der SQL-Klassiker in Hadoop
Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern "nur" eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.
Hive wird vorgestellt und mit verschiedenen Ausführungsalternativen demonstriert.
Spark SQL – Die Abkürzung mit SQL
Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen. In diesem Abschnitt wird Ihnen Spark SQL vorgestellt und demonstriert.
Phoenix – Aus NoSQL mach SQL
Phoenix ist ein logischer Layer über HBase, der als Erweiterung für Region Server implementiert ist und den Zugriff auf die NoSQL-Datenbank mittels SQL erlaubt. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL. In diesem Abschnitt wird Phoenix Ihnen vorgestellt und demonstriert. Es werden die Möglichkeiten und Grenzen von Phoenix SQL aufgezeigt.
Impala – Der schnelle Sprinter
Impala, ursprünglich von Cloudera entwickelt und seit einiger Zeit als quelloffene Software unter dem Dach der Apache Software Foundation, geht noch einen Schritt weiter als Phoenix und stellt eine eigene, verteilte Infrastruktur für SQL-basierte Abfragen zur Verfügung. Impala ist deshalb nicht limitiert im Zugriff auf HBase, sondern kann auch mit Kudu sowie mit HDFS direkt kommunizieren. In diesem Abschnitt wird Impala vorgestellt und demonstriert.
Zusammenfassung
Wer die Wahl hat, hat die Qual. In diesem Kurs wurde eine Vielzahl von möglichen Ansätzen vorgestellt, um strukturierte Daten im Hadoop-Cluster abzuspeichern und abzufragen. In dieser Zusammenfassung wird ein Leitfaden vorgestellt, der helfen kann, die richtige Komponente für die jeweilige Aufgabenstellung auszuwählen.
Ziele
In diesem Kurs lernen Sie die Komponenten im Hadoop-Ökosystem kennen. Dabei setzt er auf dem einführenden Kurs „Big Data Überblick“ auf und dient als Bindeglied zu den vertiefenden Kursen „Apache HDFS Vertiefung“, „Apache HBase Vertiefung“, „Apache Hive Vertiefung“, „Apache Spark Vertiefung“ und „Apache Impala Vertiefung“.
Weitere Kursinfos:
- Schwierigkeitsgrad: 200
- Darreichung: PowerPoint-Präsentation, Live-Demos.
- Materialien: Präsentation in elektronischer Form (Format .PDF).
- Credits: Ja (Credits für die Zertifizierung)
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache HDFS Vertiefung
b. Apache HBase Vertiefung
c. Apache Spark Vertiefung
d. Apache Impala Vertiefung
Agenda
Das Dateisystem HDFS – Die Basis
Das Kernstück von Hadoop ist ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS). Die nachfolgend vorgestellten Komponenten setzen darauf auf, deshalb ist es wichtig, die Funktionsweise von HDFS zu verstehen und welche Möglichkeiten bestehen, den Durchsatz zu vergrößern und Zugriffszeiten zu minimieren. Dies wird anhand praktischer Demonstrationen verdeutlicht.
Die NoSQL-Datenbank HBase
HBase ist die am häufigsten zum Einsatz kommende Datenbank im Hadoop-Umfeld. Die Komponente ist deshalb sehr leistungsstark und entsprechend ausgereift. HBase steht für den Typ NoSQL-Datenbank, weshalb sich Datenhaltung und Zugriff auf die Daten gänzlich anders darstellen als im relationalen Umfeld. Sie erhalten einen soliden Überblick, der mit zahlreichen praktischen Demos vertieft wird.
Accumulo – Die Alternative für HBase
Die HBase-Alternative Accumulo ist im Kern vergleichbar mit HBase, da sie ebenfalls Googles "Big Table"-Implementierung zum Vorbild hat. Allerdings unterscheidet sie sich in der Implementierung von der von HBase. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Accumulo eingegangen und werden Beispiele aufgezeigt, wo der Einsatz von Accumulo Sinn macht.
Der Columnar Store Druid
Druid ist eine verteilte Datenbank, die auf einer spaltenorientierten Speicherung der Daten beruht. Die physische Architektur der Datenhaltung ist optimiert für typische Data Warehouse-Einsatzszenarien mit Filterbedingungen und Gruppierungen über Dimensionen, d.h. Daten werden spaltenorientiert und verdichtet in Segmenten abgespeichert. Druid-Datenbanken können zeitnah aktualisiert und abgefragt werden. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Druid eingegangen und gezeigt, wie Druid eingesetzt werden kann.
Kudu – Die Alternative zu Druid
Kudu ist eine relativ junge Open Source-Datenbank, die von Cloudera initiiert wurde und deshalb eher im Umfeld der Hadoop-Distribution von Cloudera vorzufinden ist. Die Implementierung stellt eine gewisse Abkehr von dem sehr flexiblen Ansatz in HBase und Accumulo dar: Tabellen mit typdefinierten Spalten erlauben eine spaltenorientierte, hochverdichtete Speicherung der Daten. In Verbindung mit Impala ist darüber hinaus ein SQL-basierter Zugriff auf die Daten möglich.
HAWQ – Ein neuer Standard?
HAWQ, ursprünglich von Pivotal entwickelt und mittlerweile unter dem Dach der Apache Software Foundation als Open Source veröffentlich, ist ein verteilter Datenspeicher, der den nativen SQL-Zugriff erlaubt. HAWQ ist flexibler im Zugriff auf die Daten und besser am SQL-Standard orientiert als andere SQL-basierte Ansätze in Hadoop, allerdings ist der Aufwand dafür auch signifikant höher. HAWQ kann recht gut in die Hadoop-Distribution von Hortonworks integriert werden, weshalb die Komponente eher in diesem Umfeld zu finden ist. Die Möglichkeiten von HAWQ werden demonstriert.
Hive – Der SQL-Klassiker in Hadoop
Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern "nur" eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.
Hive wird vorgestellt und mit verschiedenen Ausführungsalternativen demonstriert.
Spark SQL – Die Abkürzung mit SQL
Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen. In diesem Abschnitt wird Ihnen Spark SQL vorgestellt und demonstriert.
Phoenix – Aus NoSQL mach SQL
Phoenix ist ein logischer Layer über HBase, der als Erweiterung für Region Server implementiert ist und den Zugriff auf die NoSQL-Datenbank mittels SQL erlaubt. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL. In diesem Abschnitt wird Phoenix Ihnen vorgestellt und demonstriert. Es werden die Möglichkeiten und Grenzen von Phoenix SQL aufgezeigt.
Impala – Der schnelle Sprinter
Impala, ursprünglich von Cloudera entwickelt und seit einiger Zeit als quelloffene Software unter dem Dach der Apache Software Foundation, geht noch einen Schritt weiter als Phoenix und stellt eine eigene, verteilte Infrastruktur für SQL-basierte Abfragen zur Verfügung. Impala ist deshalb nicht limitiert im Zugriff auf HBase, sondern kann auch mit Kudu sowie mit HDFS direkt kommunizieren. In diesem Abschnitt wird Impala vorgestellt und demonstriert.
Zusammenfassung
Wer die Wahl hat, hat die Qual. In diesem Kurs wurde eine Vielzahl von möglichen Ansätzen vorgestellt, um strukturierte Daten im Hadoop-Cluster abzuspeichern und abzufragen. In dieser Zusammenfassung wird ein Leitfaden vorgestellt, der helfen kann, die richtige Komponente für die jeweilige Aufgabenstellung auszuwählen.