Apache Hive

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 2 Tage

Ziele

In diesem Kurs lernen Sie Hive erfolgreich zu betreiben und nutzen zu können. Neben der Vermittlung der Theorie liegt der Fokus auf der

praktischen Anwendung in unterschiedlichen Übungen.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Spark Grundlagen Vertiefung
b. Apache Spark SQL Vertiefung
c. Apache Hadoop und Java – Vertiefung
d. Hadoop und Python – Vertiefung
e. Data Scientist Methoden Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Vertiefung
b. Data Engineer Tools Vertiefung

Agenda

Strukturen – Die logische Sicht auf die Daten in Hive

Hive verwendet eine Metadatenschicht zur Beschreibung von Datenstrukturen, die die aus dem relationalen Umfeld vertrauten Begriffe wie beispielsweise Tabellen und Spalten verwendet. Sie machen sich mit dem logischen Prinzip der Datenhaltung in Hive vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Daten eingeben und auslesen kann.

Storage und Access – Der physische Zugriff auf die Daten mit Hive

Obwohl Hive "nur" Daten aus HDFS verarbeitet, gibt es eine Reihe von Möglichkeiten, wie dies geschehen kann. Darüber hinaus gibt es verschiedene Ansätze, wie diese Daten abgefragt werden. Die verschiedenen Möglichkeiten werden in diesem Abschnitt vorgestellt und demonstriert. Eine praktische Übung vertieft das Verständnis, wie Daten in Hive gespeichert und verarbeitet werden.

Praxis 1 - Das Design von Datenstrukturen für Hive

Hive besitzt einen Optimizer und ist grundsätzlich in der Lage, einen "besseren" Ausführungsplan auszuwählen. Trotzdem ist man gut beraten, einige elementare Regeln zu berücksichtigen und Datenhaltung und Abfragen aufeinander abzustimmen.

Praxis 2 - Der programmatische Zugriff auf Daten

Hive wird häufig aus der CLI (Command Line Interface) heraus oder via JDBC/ODBC genutzt, aber auch ein programmatischer Zugriff über das Java API ist möglich. Die Nutzung dieses APIs wird praktisch angewendet.

Praxis 3 - Der Betrieb von Hive im Hadoop Cluster

Bei der Nutzung von Hive in einem Hadoop-Cluster sind eine Reihe von Rahmenbedingungen zu bedenken, die zumeist das zugrundeliegende Dateisystem betreffen - beispielsweise die Berücksichtigung möglicher Ausfallszenarien, BackUp-Szenarien wie Replikation und Snapshots sowie Desaster Recovery, der Bulk Load von Daten, die Ressourcenbeschränkung mit Quotas, die Zugriffsbeschränkung mittels Security und andere. Die Teilnehmer machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.

Praxis 4 - Optimierung von Hive im Hadoop Cluster

In diesem Praxisteil wird der Schwerpunkt auf praktische Aspekte gelegt und werden Optimierungshinweise gegeben. Dabei werden unter anderem Fragestellungen des "richtigen" Datenformates, die Vor- und Nachteile der Komprimierung von Daten sowie der Abwägung der Verwendung interner oder externer Tabellen evaluiert und beantwortet.

Ziele

In diesem Kurs lernen Sie Hive erfolgreich zu betreiben und nutzen zu können. Neben der Vermittlung der Theorie liegt der Fokus auf der

praktischen Anwendung in unterschiedlichen Übungen.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Spark Grundlagen Vertiefung
b. Apache Spark SQL Vertiefung
c. Apache Hadoop und Java – Vertiefung
d. Hadoop und Python – Vertiefung
e. Data Scientist Methoden Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Vertiefung
b. Data Engineer Tools Vertiefung

Agenda

Strukturen – Die logische Sicht auf die Daten in Hive

Hive verwendet eine Metadatenschicht zur Beschreibung von Datenstrukturen, die die aus dem relationalen Umfeld vertrauten Begriffe wie beispielsweise Tabellen und Spalten verwendet. Sie machen sich mit dem logischen Prinzip der Datenhaltung in Hive vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Daten eingeben und auslesen kann.

Storage und Access – Der physische Zugriff auf die Daten mit Hive

Obwohl Hive "nur" Daten aus HDFS verarbeitet, gibt es eine Reihe von Möglichkeiten, wie dies geschehen kann. Darüber hinaus gibt es verschiedene Ansätze, wie diese Daten abgefragt werden. Die verschiedenen Möglichkeiten werden in diesem Abschnitt vorgestellt und demonstriert. Eine praktische Übung vertieft das Verständnis, wie Daten in Hive gespeichert und verarbeitet werden.

Praxis 1 - Das Design von Datenstrukturen für Hive

Hive besitzt einen Optimizer und ist grundsätzlich in der Lage, einen "besseren" Ausführungsplan auszuwählen. Trotzdem ist man gut beraten, einige elementare Regeln zu berücksichtigen und Datenhaltung und Abfragen aufeinander abzustimmen.

Praxis 2 - Der programmatische Zugriff auf Daten

Hive wird häufig aus der CLI (Command Line Interface) heraus oder via JDBC/ODBC genutzt, aber auch ein programmatischer Zugriff über das Java API ist möglich. Die Nutzung dieses APIs wird praktisch angewendet.

Praxis 3 - Der Betrieb von Hive im Hadoop Cluster

Bei der Nutzung von Hive in einem Hadoop-Cluster sind eine Reihe von Rahmenbedingungen zu bedenken, die zumeist das zugrundeliegende Dateisystem betreffen - beispielsweise die Berücksichtigung möglicher Ausfallszenarien, BackUp-Szenarien wie Replikation und Snapshots sowie Desaster Recovery, der Bulk Load von Daten, die Ressourcenbeschränkung mit Quotas, die Zugriffsbeschränkung mittels Security und andere. Die Teilnehmer machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.

Praxis 4 - Optimierung von Hive im Hadoop Cluster

In diesem Praxisteil wird der Schwerpunkt auf praktische Aspekte gelegt und werden Optimierungshinweise gegeben. Dabei werden unter anderem Fragestellungen des "richtigen" Datenformates, die Vor- und Nachteile der Komprimierung von Daten sowie der Abwägung der Verwendung interner oder externer Tabellen evaluiert und beantwortet.

Tags

Diese Seite weiterempfehlen