Hadoop und Python

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 3 Tage Durchführung gesichert

Ziele

In diesem Kurs lernen Sie aufbauend auf einer Strukturierung der möglichen Datenhaltungen (Dateisystem HDFS, SQL oder NoSQL) in Hadoop unterschiedliche Einsatzmöglichkeiten von Python kennen und praktisch anzuwenden. Außerdem erhalten Sie abschließend einen Einblick in zwei praxisorientierte Use Cases mit ganzheitlichen Lösungsszenarien.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil eigenständiger Übungen beträgt etwa 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • (Daten-)Analysten
  • Fachanwender

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data und die Programmiersprache Python werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Spark Grundlagen Vertiefung
b. Apache Spark SQL Vertiefung
c. Apache Spark ML Vertiefung
d. Apache Spark Streaming Vertiefung
e. Hadoop und Java – Vertiefung

f. Data Scientist Methoden Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Vertiefung

b. Data Engineer Tools Vertiefung

Agenda

Datenstrukturen in Hadoop und Vorgehensmodell für die Datenanalyse

In diesem Abschnitt wird ein Überblick zu Hadoop gegeben und die in nachfolgenden Abschnitten vertieften Komponenten im Zusammenhang dargestellt. Ausführlich wird auf die verschiedenen Speichermöglichkeiten von Daten im Hadoop-Cluster eingegangen und die erforderlichen Schlussfolgerungen für das Vorgehen zur Datenanalyse gezogen.

Nutzung von Python in einer Hadoop-Umgebung

Dieser Abschnitt geht auf die Besonderheiten für Python in einer Hadoop-Umgebung ein. Ausführlich wird erläutert, welche Versionen unterstützt werden und welche Tools eingesetzt werden können. Die Teilnehmer aktivieren in diesem Abschnitt ihren simulierten Hadoop-Cluster und überprüfen die Konfiguration für Python.

Hive und Python

Hive stellt eine Möglichkeit zur Verfügung, um auf strukturierte Daten in Hadoop mit SQL-ähnlichen Abfragen zugreifen zu können. Dazu wird Hive im Überblick vorgestellt. Mit pyhive existiert eine Bibliothek, um Hive aus Python heraus nutzen zu können. Die Teilnehmer wenden pyhive praktisch an.

HBase und Python

HBase ist eine häufig eingesetzte NoSQL Datenbank in Hadoop, die in einem Überblick vorgestellt wird. Mit der zusätzlichen Bibliothek HappyBase ist der Zugriff auf HBase mittels Python möglich. Die Teilnehmer wenden HappyBase praktisch an.

Kafka und Python

Kafka ist eine verteilte Messaging-Komponente für Hadoop. Aufbauend auf einem Überblick zu Kafka werden die Nutzungsmöglichkeiten von Python aufgezeigt und praktisch angewendet.

Spark und Python

Aufbauend auf einem Überblick zu Spark (mit den Schwerpunkten Spark Core, Spark SQL, Spark MLLib und Spark Streaming) werden die Nutzungsmöglichkeiten von Python aufgezeigt und praktisch angewendet.

Praxis 1: Speicherung und Auswertung von Logdateien in Hadoop mit Python

In einem praxisorientierten Use Case wird die Erhebung, Speicherung und Auswertung von Loginformationen thematisiert und verschiedene Lösungsansätze für die Umsetzung auf Basis von Python diskutiert. Sie setzen diese Aufgabenstellung eigenständig um.

Praxis 2: Analyse von Textinhalten in Hadoop mit Python

In einem weiteren Use Case wird der Schwerpunkt auf die Analyse von Textinhalten gelegt und verschiedene Lösungsansätze für die Umsetzung auf Basis von Python diskutiert. Sie setzen diese Aufgabenstellung eigenständig um.

Ziele

In diesem Kurs lernen Sie aufbauend auf einer Strukturierung der möglichen Datenhaltungen (Dateisystem HDFS, SQL oder NoSQL) in Hadoop unterschiedliche Einsatzmöglichkeiten von Python kennen und praktisch anzuwenden. Außerdem erhalten Sie abschließend einen Einblick in zwei praxisorientierte Use Cases mit ganzheitlichen Lösungsszenarien.

Weitere Kursinfos:

  • Schwierigkeitsgrad: 300
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil eigenständiger Übungen beträgt etwa 55 %.
  • Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja.

Zielgruppe

  • (IT-)Architekt
  • (IT-)Entwickler
  • (Daten-)Analysten
  • Fachanwender

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data und die Programmiersprache Python werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg
b. Big Data – Technologien, Strategien und Trends
c. Hortonworks HDP Einstieg
d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
c. NoSQL Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Spark Grundlagen Vertiefung
b. Apache Spark SQL Vertiefung
c. Apache Spark ML Vertiefung
d. Apache Spark Streaming Vertiefung
e. Hadoop und Java – Vertiefung

f. Data Scientist Methoden Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Vertiefung

b. Data Engineer Tools Vertiefung

Agenda

Datenstrukturen in Hadoop und Vorgehensmodell für die Datenanalyse

In diesem Abschnitt wird ein Überblick zu Hadoop gegeben und die in nachfolgenden Abschnitten vertieften Komponenten im Zusammenhang dargestellt. Ausführlich wird auf die verschiedenen Speichermöglichkeiten von Daten im Hadoop-Cluster eingegangen und die erforderlichen Schlussfolgerungen für das Vorgehen zur Datenanalyse gezogen.

Nutzung von Python in einer Hadoop-Umgebung

Dieser Abschnitt geht auf die Besonderheiten für Python in einer Hadoop-Umgebung ein. Ausführlich wird erläutert, welche Versionen unterstützt werden und welche Tools eingesetzt werden können. Die Teilnehmer aktivieren in diesem Abschnitt ihren simulierten Hadoop-Cluster und überprüfen die Konfiguration für Python.

Hive und Python

Hive stellt eine Möglichkeit zur Verfügung, um auf strukturierte Daten in Hadoop mit SQL-ähnlichen Abfragen zugreifen zu können. Dazu wird Hive im Überblick vorgestellt. Mit pyhive existiert eine Bibliothek, um Hive aus Python heraus nutzen zu können. Die Teilnehmer wenden pyhive praktisch an.

HBase und Python

HBase ist eine häufig eingesetzte NoSQL Datenbank in Hadoop, die in einem Überblick vorgestellt wird. Mit der zusätzlichen Bibliothek HappyBase ist der Zugriff auf HBase mittels Python möglich. Die Teilnehmer wenden HappyBase praktisch an.

Kafka und Python

Kafka ist eine verteilte Messaging-Komponente für Hadoop. Aufbauend auf einem Überblick zu Kafka werden die Nutzungsmöglichkeiten von Python aufgezeigt und praktisch angewendet.

Spark und Python

Aufbauend auf einem Überblick zu Spark (mit den Schwerpunkten Spark Core, Spark SQL, Spark MLLib und Spark Streaming) werden die Nutzungsmöglichkeiten von Python aufgezeigt und praktisch angewendet.

Praxis 1: Speicherung und Auswertung von Logdateien in Hadoop mit Python

In einem praxisorientierten Use Case wird die Erhebung, Speicherung und Auswertung von Loginformationen thematisiert und verschiedene Lösungsansätze für die Umsetzung auf Basis von Python diskutiert. Sie setzen diese Aufgabenstellung eigenständig um.

Praxis 2: Analyse von Textinhalten in Hadoop mit Python

In einem weiteren Use Case wird der Schwerpunkt auf die Analyse von Textinhalten gelegt und verschiedene Lösungsansätze für die Umsetzung auf Basis von Python diskutiert. Sie setzen diese Aufgabenstellung eigenständig um.

Tags

Diese Seite weiterempfehlen