Data Analyst - Tools
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 3 Tage
Ziele
Data Scientist und Data Analyst – was ist der Unterschied? In unserem Kursprogramm legen wir den Schwerpunkt für den Data Scientist auf Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen favorisiert werden. Dementsprechend werden in diesem Kurs die Tools und Technologien in Big Data herausgestellt, die derartige Abfragen ermöglichen.
Der Kurs wird mit einem Test abgeschlossen. Nach erfolgreicher Absolvierung wird vom "Big Data Lab e.V." ein offizielles Zertifikat über die erfolgreiche Teilnahme ausgereicht.
Weitere Seminarinfos:
- Schwierigkeitsgrad: 300
- Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der dargebotene Inhalt unterscheidet sich geringfügig je nach Wahl der Hadoop-Distribution (Cloudera oder Hortonworks), da nicht alle Komponenten in beiden Distributionen verfügbar sind.
- Die Teilnehmer haben die Möglichkeit, einen Test zu absolvieren, der aus der Beantwortung von Fragen (multiple Choice) besteht. Nach erfolgreichem Abschluss des Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme am Kurs "Data Analyst - Tools" vom "Big Data Lab e.V." ausgereicht.
- Materialien: Präsentation in elektronischer Form (PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt. Der Anteil eigenständiger Übungen beträgt etwa 50 %.
- Credits: Ja.
Zielgruppe
- (IT-)Entwickler
- (Fach-)Anwender
Voraussetzungen
- Praktische Erfahrungen im Umgang mit Business Intelligence sowie Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt R oder Python).
- Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Data Scientist Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache Hive Vertiefung
b. Apache Impala Vertiefung
c. Apache Spark SQL Vertiefung
Agenda
Modul 1: Data Analysts, Data Scientists, Data Engineers: Worin besteht der Unterschied?
Data Scientists sind allgegenwärtig, auch Data Engineers erfreuen sich wachsender Beliebtheit. Aber was ist macht ein Data Analyst? Wir verstehen den Schwerpunkt der Tätigkeit eines Data Scientist auf dem Feld von Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen im Vordergrund stehen. In diesem einführenden Modul wird auf die typischen Tätigkeitsprofile für Data Analysts, Data Scientists und Data Engineers eingegangen.
Credits für Modul 1: 0
Modul 2: Die Kernkomponenten von Hadoop: HDFS, YARN und MapReduce
Das Kernkomponenten von Hadoop sind ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS), eine flexible Ressourcen-Steuerung (YARN) sowie das altbekannte MapReduce.
Von besonderer Bedeutung ist hierbei das Dateisystem. Die Teilnehmer machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien manipuliert. Ein weiterer Schwerpunkt befasst sich mit den unterschiedlichen Formaten für strukturierte Daten in HDFS wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile.
Credits für Modul 2: 5
Modul 3: Pig ist ein Mechanismus, um stapelorientierte Datenfluss-Operationen in Hadoop auszuführen.
Gelegentlich wird Pig auch als das ETL-Tool von Hadoop bezeichnet und ist gut geeignet, um Daten zusammenzuführen, zu trennen oder zu transformieren. Die Teilnehmer werden in die Skriptsprache von Pig, dem Pig Latin, eingeführt und erstellen eigene Skripte unterschiedlicher Komplexität für die Aufbereitung von Daten.
Credits für Modul 3: 5
Modul 4 Hive – Der SQL-Klassiker in Hadoop
Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern "nur" eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.
Die Teilnehmer lösen unterschiedliche Aufgabenstellungen unter Verwendung von Hive.
Credits für Modul 4: 10
Modul 5: Impala (nur in Verbindung mit der Cloudera-Distribution)
Bei Impala handelt es sich um eine SQL-basierte Query-Engine, die sich allerdings signifikant von der aus relationalen Datenbanken bekannten Komponente unterscheidet, weil sie tief in das Hadoop-Ökosystem integriert ist und eine verteilte Arbeitsweise unterstützt.
Die Teilnehmer lernen verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert. In praktischen Beispielen loten die Teilnehmer die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Modul 5: Phoenix (nur in Verbindung mit der Hortonworks-Distribution)
Phoenix ist eine Erweiterung für die NoSQL-Datenbank HBase, die es gestattet, SQL-Abfragen für den Zugriff auf die Daten in HBase zu verwenden. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.
Die Teilnehmer machen sich mit den Möglichkeiten von Phoenix SQL vertraut und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Credits für Modul 5: 5
Modul 6: Spark SQL – Die Abkürzung mit SQL
Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.
Die Teilnehmer lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Python.
Credits für Modul 6: 10
Test "Data Analyst Tools Vertiefung".
Voraussetzung für die Teilnahme am Test "Data Analyst Tools Vertiefung" sind 35 Credits, die in den Modulen 1 bis 6 gesammelt werden konnten.
Ziele
Data Scientist und Data Analyst – was ist der Unterschied? In unserem Kursprogramm legen wir den Schwerpunkt für den Data Scientist auf Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen favorisiert werden. Dementsprechend werden in diesem Kurs die Tools und Technologien in Big Data herausgestellt, die derartige Abfragen ermöglichen.
Der Kurs wird mit einem Test abgeschlossen. Nach erfolgreicher Absolvierung wird vom "Big Data Lab e.V." ein offizielles Zertifikat über die erfolgreiche Teilnahme ausgereicht.
Weitere Seminarinfos:
- Schwierigkeitsgrad: 300
- Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der dargebotene Inhalt unterscheidet sich geringfügig je nach Wahl der Hadoop-Distribution (Cloudera oder Hortonworks), da nicht alle Komponenten in beiden Distributionen verfügbar sind.
- Die Teilnehmer haben die Möglichkeit, einen Test zu absolvieren, der aus der Beantwortung von Fragen (multiple Choice) besteht. Nach erfolgreichem Abschluss des Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme am Kurs "Data Analyst - Tools" vom "Big Data Lab e.V." ausgereicht.
- Materialien: Präsentation in elektronischer Form (PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt. Der Anteil eigenständiger Übungen beträgt etwa 50 %.
- Credits: Ja.
Zielgruppe
- (IT-)Entwickler
- (Fach-)Anwender
Voraussetzungen
- Praktische Erfahrungen im Umgang mit Business Intelligence sowie Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt R oder Python).
- Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Data Scientist Einstieg
2) Überblicks-Seminare (Schwierigkeitsgrad 200)
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
a. Apache Hive Vertiefung
b. Apache Impala Vertiefung
c. Apache Spark SQL Vertiefung
Agenda
Modul 1: Data Analysts, Data Scientists, Data Engineers: Worin besteht der Unterschied?
Data Scientists sind allgegenwärtig, auch Data Engineers erfreuen sich wachsender Beliebtheit. Aber was ist macht ein Data Analyst? Wir verstehen den Schwerpunkt der Tätigkeit eines Data Scientist auf dem Feld von Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen im Vordergrund stehen. In diesem einführenden Modul wird auf die typischen Tätigkeitsprofile für Data Analysts, Data Scientists und Data Engineers eingegangen.
Credits für Modul 1: 0
Modul 2: Die Kernkomponenten von Hadoop: HDFS, YARN und MapReduce
Das Kernkomponenten von Hadoop sind ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS), eine flexible Ressourcen-Steuerung (YARN) sowie das altbekannte MapReduce.
Von besonderer Bedeutung ist hierbei das Dateisystem. Die Teilnehmer machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien manipuliert. Ein weiterer Schwerpunkt befasst sich mit den unterschiedlichen Formaten für strukturierte Daten in HDFS wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile.
Credits für Modul 2: 5
Modul 3: Pig ist ein Mechanismus, um stapelorientierte Datenfluss-Operationen in Hadoop auszuführen.
Gelegentlich wird Pig auch als das ETL-Tool von Hadoop bezeichnet und ist gut geeignet, um Daten zusammenzuführen, zu trennen oder zu transformieren. Die Teilnehmer werden in die Skriptsprache von Pig, dem Pig Latin, eingeführt und erstellen eigene Skripte unterschiedlicher Komplexität für die Aufbereitung von Daten.
Credits für Modul 3: 5
Modul 4 Hive – Der SQL-Klassiker in Hadoop
Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern "nur" eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.
Die Teilnehmer lösen unterschiedliche Aufgabenstellungen unter Verwendung von Hive.
Credits für Modul 4: 10
Modul 5: Impala (nur in Verbindung mit der Cloudera-Distribution)
Bei Impala handelt es sich um eine SQL-basierte Query-Engine, die sich allerdings signifikant von der aus relationalen Datenbanken bekannten Komponente unterscheidet, weil sie tief in das Hadoop-Ökosystem integriert ist und eine verteilte Arbeitsweise unterstützt.
Die Teilnehmer lernen verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert. In praktischen Beispielen loten die Teilnehmer die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Modul 5: Phoenix (nur in Verbindung mit der Hortonworks-Distribution)
Phoenix ist eine Erweiterung für die NoSQL-Datenbank HBase, die es gestattet, SQL-Abfragen für den Zugriff auf die Daten in HBase zu verwenden. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.
Die Teilnehmer machen sich mit den Möglichkeiten von Phoenix SQL vertraut und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Credits für Modul 5: 5
Modul 6: Spark SQL – Die Abkürzung mit SQL
Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.
Die Teilnehmer lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Python.
Credits für Modul 6: 10
Test "Data Analyst Tools Vertiefung".
Voraussetzung für die Teilnahme am Test "Data Analyst Tools Vertiefung" sind 35 Credits, die in den Modulen 1 bis 6 gesammelt werden konnten.