Apache Impala
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 3 Tage
Ziele
In diesem Kurs erhalten Sie einen Einblick in die Besonderheiten von Apache Impala und lernen den erfolgreichen Einsatz.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache Hive Vertiefung
b. Apache HBase Vertiefung
c. Apache Hadoop und Java – Vertiefung
d. Data Scientist Methoden Vertiefung
4) Spezialisierungskurse (Schwierigkeitsgrad 400)
a. Data Scientist Tools Vertiefung
b. Data Engineer Tools Vertiefung
Agenda
Strukturen – Die Architektur von Impala
Apache Impala besitzt nicht die klassische Master-/Worker-Struktur wie viele andere Hadoop-Komponenten, sondern agiert auch mit dynamischen Koordinator-Strukturen. Sie lernen die verschiedenen Rollen der Impala-Komponenten wie Query-Coordinator, Query-Executor, Statestore und Catalog Service kennen und wie man diese in einem Hadoop-Cluster konfiguriert.
Storage und Access – Metadaten und Datenzugriff mit Impala
Impala unterstützt verschiedene Formate wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile im verteilten Dateisystem HDFS sowie den direkten Zugriff auf die Datenbanken HBase und Kudu. Darüber hinaus ist eine Interaktion mit Hive über den gemeinsamen Metastore möglich. Alternativ können Daten direkt aus der Cloud angesprochen werden.
Impala verwendet verschiedene Techniken zur Beschleunigung der Abfragen, die auf einer genauen Kenntnis der zugrundeliegenden Metadaten basieren, die für den schnellen Zugriff im Speicher vorgehalten werden.
In diesem Modul machen Sie sich mit den grundsätzlichen Datenformaten vertraut, die mit Impala angesprochen werden können.
Praxis 1 – Der Zugriff auf Daten mit Impala
In diesem Abschnitt lernen Sie verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert.
Praxis 2 – Die SQL-Abfragesprache in Impala
Sie loten die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen. Die Besonderheiten im Umgang mit Tabellen aus Kudu oder HBase werden herausgearbeitet. Impala kennt komplexe Datentypen wie ARRAY, MAP und STRUCT (vergleichbar zu Hive). Die Möglichkeiten dieser Datentypen werden von den Teilnehmern evaluiert.Wegen der vielfältigen Besonderheiten stellt dieser Abschnitt den Schwerpunkt des dreitägigen Kurses dar.
Praxis 3 - Der Betrieb von Impala im Hadoop Cluster
Bei der Nutzung von Impala in einem Hadoop-Cluster sind nur wenige grundsätzliche Aspekte wie Datendurchsatz, Speicherquoten oder Timeout zu definieren. Sie machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut. Als weiterer wichtiger Punkt wird die Authentifizierung und Autorisierung (mit Apacha Sentry) behandelt.
Praxis 4 – Performance-Optimierung für Impala im Hadoop Cluster
In diesem Praxisteil wird ausführlich auf die Möglichkeiten der Performance-Optimierung für Impala im Hadoop-Cluster eingegangen. Dies ist einerseits durch Wahl der geeigneten Hardware möglich, andererseits aber durch die Auswahl oder Anordnung der Daten beeinflussbar. Sie machen sich mit den Möglichkeiten der Abschätzung der Hardware-Anforderungen für verschiedene Anwendungsszenarien vertraut und evaluieren, wie Daten optimal für eine hohe Abfragegeschwindigkeit anzuordnen sind.
Ziele
In diesem Kurs erhalten Sie einen Einblick in die Besonderheiten von Apache Impala und lernen den erfolgreichen Einsatz.
Zielgruppe
- (IT-)Architekt
- (IT-)Entwickler
Voraussetzungen
Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Cloudera CDH Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache Hive Vertiefung
b. Apache HBase Vertiefung
c. Apache Hadoop und Java – Vertiefung
d. Data Scientist Methoden Vertiefung
4) Spezialisierungskurse (Schwierigkeitsgrad 400)
a. Data Scientist Tools Vertiefung
b. Data Engineer Tools Vertiefung
Agenda
Strukturen – Die Architektur von Impala
Apache Impala besitzt nicht die klassische Master-/Worker-Struktur wie viele andere Hadoop-Komponenten, sondern agiert auch mit dynamischen Koordinator-Strukturen. Sie lernen die verschiedenen Rollen der Impala-Komponenten wie Query-Coordinator, Query-Executor, Statestore und Catalog Service kennen und wie man diese in einem Hadoop-Cluster konfiguriert.
Storage und Access – Metadaten und Datenzugriff mit Impala
Impala unterstützt verschiedene Formate wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile im verteilten Dateisystem HDFS sowie den direkten Zugriff auf die Datenbanken HBase und Kudu. Darüber hinaus ist eine Interaktion mit Hive über den gemeinsamen Metastore möglich. Alternativ können Daten direkt aus der Cloud angesprochen werden.
Impala verwendet verschiedene Techniken zur Beschleunigung der Abfragen, die auf einer genauen Kenntnis der zugrundeliegenden Metadaten basieren, die für den schnellen Zugriff im Speicher vorgehalten werden.
In diesem Modul machen Sie sich mit den grundsätzlichen Datenformaten vertraut, die mit Impala angesprochen werden können.
Praxis 1 – Der Zugriff auf Daten mit Impala
In diesem Abschnitt lernen Sie verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert.
Praxis 2 – Die SQL-Abfragesprache in Impala
Sie loten die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen. Die Besonderheiten im Umgang mit Tabellen aus Kudu oder HBase werden herausgearbeitet. Impala kennt komplexe Datentypen wie ARRAY, MAP und STRUCT (vergleichbar zu Hive). Die Möglichkeiten dieser Datentypen werden von den Teilnehmern evaluiert.Wegen der vielfältigen Besonderheiten stellt dieser Abschnitt den Schwerpunkt des dreitägigen Kurses dar.
Praxis 3 - Der Betrieb von Impala im Hadoop Cluster
Bei der Nutzung von Impala in einem Hadoop-Cluster sind nur wenige grundsätzliche Aspekte wie Datendurchsatz, Speicherquoten oder Timeout zu definieren. Sie machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut. Als weiterer wichtiger Punkt wird die Authentifizierung und Autorisierung (mit Apacha Sentry) behandelt.
Praxis 4 – Performance-Optimierung für Impala im Hadoop Cluster
In diesem Praxisteil wird ausführlich auf die Möglichkeiten der Performance-Optimierung für Impala im Hadoop-Cluster eingegangen. Dies ist einerseits durch Wahl der geeigneten Hardware möglich, andererseits aber durch die Auswahl oder Anordnung der Daten beeinflussbar. Sie machen sich mit den Möglichkeiten der Abschätzung der Hardware-Anforderungen für verschiedene Anwendungsszenarien vertraut und evaluieren, wie Daten optimal für eine hohe Abfragegeschwindigkeit anzuordnen sind.