Hortonworks HDF Fortgeschrittenenkurs

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

In diesem Kurs lernen Sie Installation und Nutzung von HDF.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer.
  • Der Anteil der eigenständigen Übungen beträgt 50 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form.
  • Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • Data Engineer
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Hadoop Datentechnologien" bzw. "NoSQL Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick

Agenda

Überblick Hortonworks DataFlow HDF von Hortonworks

Das Konzept von Hortonworks DataFlow wird vorgestellt und in die Landschaft von Big Data und Hadoop-Architekturen eingeordnet und Begriffe wie Data Flow, Processor, Funnel oder Process Group werden erläutert.

Installation Hortonworks HDF

Das quelloffene Apache NiFi wird von Hortonworks als DataFlow in die Hadoop-Distribution Hortonworks HDP integriert. Die Software kann als Applikation oder Dienst in verschiedenen Betriebssystem-Umgebungen aktiviert oder als Cluster in einem Hortonworks-Cluster installiert werden. Sie installieren HDF als Applikation in die dafür präparierte Betriebssystemumgebung und nehmen die Komponente in Betrieb.

Erstellung eines Datenflusses in Hortonworks HDF

Ein Datenfluss in Hortonworks HDF kann einfach im NiFi User Interface erstellt werden. Das GUI wird erläutert und demonstriert. Sie erstellen einen Datenfluss, der Daten aus dem lokalen Filesystem ausliest und im verteilten Dateisystem des Hadoop-Clusters persistiert.

Datenfluss in Hortonworks HDF kontrollieren

Ein Datenfluss kann aus dem NiFi User Interface heraus gestartet und die Ausführung kontrolliert werden. Sie führen die Datenbewirtschaftung aus. Fehlermeldungen werden genutzt, um den Datenfluss robuster zu gestalten.

NiFi Expression Language

Apache NiFi besitzt eine eigene Skriptsprache, die es erlaubt, spezielle Operationen auf dem Datenfluss auszuführen. Die Teilnehmer machen sich mit den Grundzügen der Skriptsprache vertraut und erweitern den zuvor generierten Datenfluss durch Modifikation der gelesenen Daten mittels eines Skriptes.

Templates in Hortonworks HDF verwenden

Abschnitte eines definierten Datenflusses können als Template gespeichert werden und wiederverwendet werden. Dadurch können komplexe Lade-Szenarien bausteinartig zusammengesetzt und die Effizienz erhöht werden. Sie lernen Templates zu verwenden, eigene Templates zu erstellen und diese zu exportieren.

Sichern und Schützen in Hortonworks HDF

Hortonworks HDF verwendet verschiedene Repositories, die beispielsweise Dateninhalte, Metadaten oder Detailinformationen zu historischen Ladeprozessen beinhalten. Die Ablage und die definierenden Parameter werden erläutert und Empfehlungen gegeben, welche Daten regelmäßig zu sichern sind. Der Zugriff auf Hortonworks HDF kann reglementiert werden. Falls geschützte Komponenten aus einem gesicherten Hadoop-Cluster verwendet werden sollen, ist eine ganzheitliche Integration erforderlich, die in Grundzügen vorgestellt wird.

Überwachen und Analysieren von Hortonworks HDF

Hortonworks HDF bietet eine Vielzahl von Möglichkeiten, aktuelle wie auch historische Daten und Statistiken zu Ladeaktivitäten bereit zu stellen. Diese können über das NiFi User Interface visualisiert werden. Eine weitere wichtige Kontrollfunktion gestattet die detaillierte Inspektion der Herkunft der Daten und ihrer Aufbereitung (Data Provenance und Data Lineage). Die Teilnehmer lernen die Kontrollmöglichkeiten im User Interface kennen und wie die angezeigten Werte zu interpretieren sind. Zusätzlich wird evaluiert, wie Hortonworks HDF in Ambari Metrics integriert werden kann.

Gesamtheitliche Aufgabenstellung

In einer gesamtheitlichen Aufgabenstellung wird von den Teilnehmern Hortonworks HDF mit der Verwaltungskomponente Ambari in dem Hadoop-Cluster installiert und anschließend ein Datenfluss erstellt, der Daten in eine Queue der Komponente Kafka einstellt. Aus Kafka werden die Daten anschließend in HBase persistiert und können von dort abgefragt werden. Ergänzend wird ein Szenario diskutiert, in dem die Daten aus der Queue von Kafka direkt von der Komponente Storm verarbeitet werden und so eine zeitnahe Auswertung erlaubt.

Ziele

In diesem Kurs lernen Sie Installation und Nutzung von HDF.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer.
  • Der Anteil der eigenständigen Übungen beträgt 50 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form.
  • Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

  • Data Engineer
  • (IT-)Entwickler
  • Administratoren

Voraussetzungen

Kenntnisse über Big Data und Hadoop werden vorausgesetzt. Es wird auf dem Kenntnisstand des Kurses "Hadoop Datentechnologien" bzw. "NoSQL Überblick" aufgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Hortonworks Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick

Agenda

Überblick Hortonworks DataFlow HDF von Hortonworks

Das Konzept von Hortonworks DataFlow wird vorgestellt und in die Landschaft von Big Data und Hadoop-Architekturen eingeordnet und Begriffe wie Data Flow, Processor, Funnel oder Process Group werden erläutert.

Installation Hortonworks HDF

Das quelloffene Apache NiFi wird von Hortonworks als DataFlow in die Hadoop-Distribution Hortonworks HDP integriert. Die Software kann als Applikation oder Dienst in verschiedenen Betriebssystem-Umgebungen aktiviert oder als Cluster in einem Hortonworks-Cluster installiert werden. Sie installieren HDF als Applikation in die dafür präparierte Betriebssystemumgebung und nehmen die Komponente in Betrieb.

Erstellung eines Datenflusses in Hortonworks HDF

Ein Datenfluss in Hortonworks HDF kann einfach im NiFi User Interface erstellt werden. Das GUI wird erläutert und demonstriert. Sie erstellen einen Datenfluss, der Daten aus dem lokalen Filesystem ausliest und im verteilten Dateisystem des Hadoop-Clusters persistiert.

Datenfluss in Hortonworks HDF kontrollieren

Ein Datenfluss kann aus dem NiFi User Interface heraus gestartet und die Ausführung kontrolliert werden. Sie führen die Datenbewirtschaftung aus. Fehlermeldungen werden genutzt, um den Datenfluss robuster zu gestalten.

NiFi Expression Language

Apache NiFi besitzt eine eigene Skriptsprache, die es erlaubt, spezielle Operationen auf dem Datenfluss auszuführen. Die Teilnehmer machen sich mit den Grundzügen der Skriptsprache vertraut und erweitern den zuvor generierten Datenfluss durch Modifikation der gelesenen Daten mittels eines Skriptes.

Templates in Hortonworks HDF verwenden

Abschnitte eines definierten Datenflusses können als Template gespeichert werden und wiederverwendet werden. Dadurch können komplexe Lade-Szenarien bausteinartig zusammengesetzt und die Effizienz erhöht werden. Sie lernen Templates zu verwenden, eigene Templates zu erstellen und diese zu exportieren.

Sichern und Schützen in Hortonworks HDF

Hortonworks HDF verwendet verschiedene Repositories, die beispielsweise Dateninhalte, Metadaten oder Detailinformationen zu historischen Ladeprozessen beinhalten. Die Ablage und die definierenden Parameter werden erläutert und Empfehlungen gegeben, welche Daten regelmäßig zu sichern sind. Der Zugriff auf Hortonworks HDF kann reglementiert werden. Falls geschützte Komponenten aus einem gesicherten Hadoop-Cluster verwendet werden sollen, ist eine ganzheitliche Integration erforderlich, die in Grundzügen vorgestellt wird.

Überwachen und Analysieren von Hortonworks HDF

Hortonworks HDF bietet eine Vielzahl von Möglichkeiten, aktuelle wie auch historische Daten und Statistiken zu Ladeaktivitäten bereit zu stellen. Diese können über das NiFi User Interface visualisiert werden. Eine weitere wichtige Kontrollfunktion gestattet die detaillierte Inspektion der Herkunft der Daten und ihrer Aufbereitung (Data Provenance und Data Lineage). Die Teilnehmer lernen die Kontrollmöglichkeiten im User Interface kennen und wie die angezeigten Werte zu interpretieren sind. Zusätzlich wird evaluiert, wie Hortonworks HDF in Ambari Metrics integriert werden kann.

Gesamtheitliche Aufgabenstellung

In einer gesamtheitlichen Aufgabenstellung wird von den Teilnehmern Hortonworks HDF mit der Verwaltungskomponente Ambari in dem Hadoop-Cluster installiert und anschließend ein Datenfluss erstellt, der Daten in eine Queue der Komponente Kafka einstellt. Aus Kafka werden die Daten anschließend in HBase persistiert und können von dort abgefragt werden. Ergänzend wird ein Szenario diskutiert, in dem die Daten aus der Queue von Kafka direkt von der Komponente Storm verarbeitet werden und so eine zeitnahe Auswertung erlaubt.

Diese Seite weiterempfehlen