Data Engineer - Tools

Classroom Schulung | deutsch | Anspruch

Schulungsdauer: 10 Tage

Ziele

Data Engineering ist Dank des Hypes um Data Science eines der aktuellen Schlagworte der IT-Branche. Aber Wissenschaft braucht nicht nur Wissenschaftler, sondern auch Ingenieure, die Wissenschaft erst möglich machen und so ist das Tätigkeitsprofil Data Engineer mehr denn je gefragt.

Nicht alles, was das Profil eines Data Engineers ausmacht, ist neu, aber vieles ist anders. Deshalb ist es sinnvoll an der vertrauten "klassischen" Position der Datenaufbereitung und ihrer Speicherung anzusetzen und Schritt für Schritt die neuen Möglichkeiten und Anforderungen kennenzulernen und anhand praktischer Aufgabenstellungen intensiv zu üben.

Dieser Spezialisierungskurs wendet sich an alle Auf- und Umsteiger, die in der Vergangenheit Erfahrungen mit der Nutzung von Data Warehouses und der Anwendung von Business Intelligence gesammelt haben.

Der Kurs wird mit einem Test, der auch die Lösung einer Praxisaufgabe beinhaltet, abgeschlossen. Nach erfolgreicher Absolvierung dieses Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme vom "Big Data Lab e.V." ausgereicht.

Weitere Seminarinfos:

  • Schwierigkeitsgrad: 400
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der dargebotene Inhalt unterscheidet sich geringfügig je nach Wahl der Hadoop-Distribution (Cloudera oder Hortonworks), da nicht alle Komponenten in beiden Distributionen verfügbar sind.
  • Die Teilnehmer haben die Möglichkeit, einen Test zu absolvieren, der aus der Beantwortung von Fragen (multiple Choice) sowie der Lösung einer praktischen Aufgabenstellung besteht. Nach erfolgreichem Abschluss des Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme am Seminar "Data Engineer - Tools" vom "Big Data Lab e.V." ausgereicht.
  • Voraussetzung für die Teilnahme am Abschlusstests ist eine Mindestzahl von Credits des Teilnehmers. Diese können im Spezialisierungskurs oder in Veranstaltungen und Kursen aus dem Programm von IT-Schulungen.com erworben werden.
  • Der Anteil eigenständiger Übungen beträgt etwa 45 %.
  • Materialien: Präsentation in elektronischer Form (PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für Zertifizierung)

Zielgruppe

  • (IT-)Entwickler
  • (IT-)Administratoren
  • (Fach-)Anwender

Voraussetzungen

  • Praktische Erfahrungen im Umgang mit Business Intelligence und/oder Data Warehouses sowie Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt Java oder Python).
  • Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

    1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
    a. Big Data Einstieg
    b. Big Data – Technologien, Strategien und Trends
    c. Data Engineer Einstieg

    2) Überblicks-Seminare (Schwierigkeitsgrad 200)
    a. Big Data Architekturen Überblick
    b. Hadoop Datentechnologien Überblick
    c. NoSQL Überblick
    d. Big Data Governance

    3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
    a. Hadoop und Java Vertiefung
    b. Hadoop und Python Vertiefung

Agenda

Modul 1: Einführung. Was ist Data Engineering und worin besteht das Profil eines Data Engineers?

Um neues Wissen aus Daten aufbereiten zu können, müssen diese nicht nur in geeigneter Weise aufbereitet und bereitgestellt, sondern manchmal auch erst gefunden werden. Wenn für Data Science das Gleichnis eines Labors gilt, ist Data Engineering der Maschinenraum, der das Labor mit den nötigen Geräten versorgt und ständig erweitert werden muss.

Das ist weit mehr, als ein traditioneller Spezialist für ETL (Extraktion, Transformation und Laden) bisher leisten musste. Irgendwo zwischen den Eckpunkten Architektur, Administration und Software-Entwicklung verorten die meisten das Bild vom Data Engineer. In diesem Abschnitt wird auf verschiedene aktuelle Interpretationen und Abgrenzungen eingegangen und Fragen wie beispielsweise Was ist ein Data Engineer? und Welche Anforderungen sind an einen Data Engineer zu stellen? beantwortet.

Credits für Modul 1: 0

Alternative Veranstaltungen:

  • Seminar Data Engineer Einstieg

Modul 2: Moderne Informations-Architekturen im Zeitalter von Big Data.

Die moderne Verarbeitung von Informationen muss nicht nur große Datenmengen handhaben können, sondern unter Umständen auch in der Lage sein, zeitnah Ergebnisse bereit zu stellen. Dies ist mit dem klassischen Architekturansatz nicht lösbar und so sind verschiedene Architekturansätze entstanden, die alle auf einer verteilten Speicherung und Verarbeitung der Daten beruhen und den unterschiedlichsten Anforderungen gerecht werden.

In diesem Modul lernen die Teilnehmer auf Hadoop basierende Architekturen kennen, die entweder für die Stapelverarbeitung oder die Verarbeitung nahe Echtzeit eingesetzt werden können sowie eine Kombination aus beiden Anforderungen.

Die Teilnehmer aktivieren in einer praktischen Übung ihre individuelle Arbeitsumgebung auf der Grundlage eines virtualisierten Hadoop-Clusters.

Credits für Modul 2: 5

Alternative Veranstaltungen:

  • Seminar Big Data Einstieg (3 Credits).
  • Seminar Big Data Architekturen Überblick (5 Credits).

Modul 3: Die Speicherung von Daten im Zeitalter von Big Data.

Die traditionelle Speicherung von Daten in "strukturierter" Form auf einem zentralen Server hat enorm an Bedeutung verloren. Heute speichert man die Daten verteilt und zumeist nur gering strukturiert, immer öfters aber auch in der Cloud.

In diesem Abschnitt lernen die Teilnehmer das verteilte Dateisystem HDFS lernen sowie verschiedene Möglichkeiten der Datenhaltung in NoSQL-Datenbanken.

Die gewonnenen Erkenntnisse werden in praktischen Übungen (Labs) vertieft.

Credits für Modul 3: 10

Alternative Veranstaltungen:

  • Seminar Hortonworks Einstieg (3 Credits) oder Cloudera Einstieg (3 Credits)
  • Seminar Hadoop im Rechenzentrum Überblick (2 Credits)
  • Seminar Hadoop in der Cloud Überblick (2 Credits)
  • Kurs HDFS Vertiefung (5 Credits)
  • Seminar NoSQL Überblick (5 Credits).

Modul 4: Die Aufbereitung von Daten im Zeitalter von Big Data.

Je nach gewählter Architektur stehen sowohl für die Stapelverarbeitung als auch für die permanente Aufbereitung von Daten unterschiedliche Konzepte und Komponenten zur Verfügung. Für die Stapelverarbeitung kommt immer noch recht häufig MapReduce zum Einsatz, welches entweder direkt oder in Form von darauf aufsetzenden Werkzeugen (wie beispielsweise Pig) genutzt wird. Für die permanente Aufbereitung von Daten wird in der Regel ein Queue-basierter Ansatz auf der Basis von Kafka verfolgt.

Darüber hinaus stehen vollständige IDEs (Integrated Development Environments) für die Aufbereitung von Daten für Big Data zur Verfügung. Neben den traditionellen ETL-Anbietern wie beispielsweise Talend oder Pentaho, die ihre Angebote entsprechend erweitert haben, sind es vor allem neue Konzepte, wie sie zum Beispiel mit der Open Source-Lösung NiFi umgesetzt werden.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer zahlreiche praktische Aufgabenstellungen.

Credits für Modul 4: 15

Alternative Veranstaltungen:

  • Seminar Hadoop Datentechnologien Überblick (5 Credits).
  • Kurs Hortonworks HDF Vertiefung (5 Credits).
  • Kurs Apache Kafka Vertiefung (5 Credits).

Modul 5: Die Evaluierung von Daten im Zeitalter von Big Data.

Für die Evaluierung von Daten im Kontext von Big Data stehen eine Vielzahl von Möglichkeiten je nach Datengrundlage und favorisierter Anwendung zur Verfügung. Die vertrauteste Form bietet immer noch die SQL-basierte Evaluierung, die unter der Voraussetzung von definierten Datenstrukturen mit Werkzeugen wie Hive, Kudu, Phoenix oder Impala möglich ist. Darüber hinaus steht mit Spark SQL eine mächtige Engine zur Verfügung, mit der in einer interaktiven Konsolenanwendung SQL-Abfragen ausgeführt werden können.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Zusätzlich werden Alternativen im Überblick vorgestellt, die auf einem nicht SQL-basierten Ansatz beruhen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen neben Hive und Spark SQL mit der Komponente Phoenix (Hortonworks) oder mit Kudu und Impala (Cloudera).

Credits für Modul 5: 20

Alternative Veranstaltungen:

  • Kurs Apache HBase Vertiefung (5 Credits).
  • Kurs Apache Hive Vertiefung (5 Credits).
  • Kurs Apache Impala Vertiefung (5 Credits).
  • Kurs Apache Spark SQL Vertiefung (10 Credits).
  • Kurs Apache Spark Vertiefung (10 Credits).

Modul 6: Programmierung im Zeitalter von Big Data.

Im Kontext von Big Data haben sich eine Vielzahl von Programmiersprachen etabliert, wovon im produktiven Umfeld die Sprache Java und in bestimmten Umfang auch Scala dominieren. Mittlerweile kommt jedoch auch verstärkt Python in der Produktion zum Einsatz, weil die Performance-Nachteile deutlich reduziert werden konnten.

Da der Zugriff von der Konsole bereits im Modul 5 thematisiert wurde und für produktive Anwendungen kaum in Frage kommt, wird in diesem Modul der Schwerpunkt auf die Sprachen Python und Java gelegt.

Die Teilnehmer machen sich mit den Basis-Konstrukten von Python und Java vertraut und lernen Notebook-Anwendungen wie beispielsweise Jupyter, Zeppelin oder die Cloudera Data Science Workbench und NiFi kennen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen mit dem Data Framework von Hortonworks der Cloudera Data Science Workbench.

Credits für Modul 6: 20

Alternative Veranstaltungen:

  • Kurs Spark Vertiefung (10 Credits).
  • Kurs Hadoop und Python Vertiefung (10 Credits).
  • Kurs Hadoop und Java Vertiefung (10 Credits).

Modul 7: Data Governance im Zeitalter von Big Data.

Exakte Metadatenbeschreibungen, Hohe Datenqualität, Zugriffsbeschränkungen auf die Daten sowie Kontrollmöglichkeiten für Datenzugriffe sind nur einige wenige Aspekte, die unter dem Begriff Data Governance zusammengefasst werden und die im Zeitalter von Big Data eine völlig neue Dimension erhalten. Die Teilnehmer machen sich mit den Anforderungen, den technischen Möglichkeiten, aber auch den praktischen Schwierigkeiten vertraut, die mit der Umsetzung von Data Governance verbunden sind und lernen verschiedene Hilfsmittel kennen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen zu den Themen Security, Auditing und Data Quality mit den Komponenten der jeweiligen Distribution.

Credits für Modul 7: 15

Alternative Veranstaltungen:

  • Seminar Big Data Governance Überblick (15 Credits).

Modul 8: Die produktive Bereitstellung von Daten im Zeitalter von Big Data.

Am Ende steht die dauerhafte Bereitstellung von Daten für die produktive Verwendung. Dazu sind neben den funktionalen Aspekten – genau wie im klassischen Data Warehouse-Vorbild – eine Vielzahl von nichtfunktionalen Anforderungen zu erfüllen.

In diesem Modul werden diese nichtfunktionalen Anforderungen im Kontext von Big Data in den Mittelpunkt gestellt und ausführlich demonstriert.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen zu den Themen BackUp, Logging, Überwachung und Benachrichtigung mit den Komponenten der jeweiligen Distribution.

Credits für Modul 8: 15

 

Test "Data Engineer Tools Spezialisierung".

Voraussetzung für die Teilnahme am Test "Data Engineer Tools Spezialisierung" sind 100 Credits, die in den Modulen 1 bis 8 oder gegebenenfalls in anderen Seminaren und Kursen gesammelt werden konnten.

Ziele

Data Engineering ist Dank des Hypes um Data Science eines der aktuellen Schlagworte der IT-Branche. Aber Wissenschaft braucht nicht nur Wissenschaftler, sondern auch Ingenieure, die Wissenschaft erst möglich machen und so ist das Tätigkeitsprofil Data Engineer mehr denn je gefragt.

Nicht alles, was das Profil eines Data Engineers ausmacht, ist neu, aber vieles ist anders. Deshalb ist es sinnvoll an der vertrauten "klassischen" Position der Datenaufbereitung und ihrer Speicherung anzusetzen und Schritt für Schritt die neuen Möglichkeiten und Anforderungen kennenzulernen und anhand praktischer Aufgabenstellungen intensiv zu üben.

Dieser Spezialisierungskurs wendet sich an alle Auf- und Umsteiger, die in der Vergangenheit Erfahrungen mit der Nutzung von Data Warehouses und der Anwendung von Business Intelligence gesammelt haben.

Der Kurs wird mit einem Test, der auch die Lösung einer Praxisaufgabe beinhaltet, abgeschlossen. Nach erfolgreicher Absolvierung dieses Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme vom "Big Data Lab e.V." ausgereicht.

Weitere Seminarinfos:

  • Schwierigkeitsgrad: 400
  • Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der dargebotene Inhalt unterscheidet sich geringfügig je nach Wahl der Hadoop-Distribution (Cloudera oder Hortonworks), da nicht alle Komponenten in beiden Distributionen verfügbar sind.
  • Die Teilnehmer haben die Möglichkeit, einen Test zu absolvieren, der aus der Beantwortung von Fragen (multiple Choice) sowie der Lösung einer praktischen Aufgabenstellung besteht. Nach erfolgreichem Abschluss des Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme am Seminar "Data Engineer - Tools" vom "Big Data Lab e.V." ausgereicht.
  • Voraussetzung für die Teilnahme am Abschlusstests ist eine Mindestzahl von Credits des Teilnehmers. Diese können im Spezialisierungskurs oder in Veranstaltungen und Kursen aus dem Programm von IT-Schulungen.com erworben werden.
  • Der Anteil eigenständiger Übungen beträgt etwa 45 %.
  • Materialien: Präsentation in elektronischer Form (PDF). Übungsunterlagen in gedruckter und elektronischer Form. Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.
  • Credits: Ja (Credits für Zertifizierung)

Zielgruppe

  • (IT-)Entwickler
  • (IT-)Administratoren
  • (Fach-)Anwender

Voraussetzungen

  • Praktische Erfahrungen im Umgang mit Business Intelligence und/oder Data Warehouses sowie Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt Java oder Python).
  • Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

    1) Einstiegs-Seminare (Schwierigkeitsgrad 100)
    a. Big Data Einstieg
    b. Big Data – Technologien, Strategien und Trends
    c. Data Engineer Einstieg

    2) Überblicks-Seminare (Schwierigkeitsgrad 200)
    a. Big Data Architekturen Überblick
    b. Hadoop Datentechnologien Überblick
    c. NoSQL Überblick
    d. Big Data Governance

    3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)
    a. Hadoop und Java Vertiefung
    b. Hadoop und Python Vertiefung

Agenda

Modul 1: Einführung. Was ist Data Engineering und worin besteht das Profil eines Data Engineers?

Um neues Wissen aus Daten aufbereiten zu können, müssen diese nicht nur in geeigneter Weise aufbereitet und bereitgestellt, sondern manchmal auch erst gefunden werden. Wenn für Data Science das Gleichnis eines Labors gilt, ist Data Engineering der Maschinenraum, der das Labor mit den nötigen Geräten versorgt und ständig erweitert werden muss.

Das ist weit mehr, als ein traditioneller Spezialist für ETL (Extraktion, Transformation und Laden) bisher leisten musste. Irgendwo zwischen den Eckpunkten Architektur, Administration und Software-Entwicklung verorten die meisten das Bild vom Data Engineer. In diesem Abschnitt wird auf verschiedene aktuelle Interpretationen und Abgrenzungen eingegangen und Fragen wie beispielsweise Was ist ein Data Engineer? und Welche Anforderungen sind an einen Data Engineer zu stellen? beantwortet.

Credits für Modul 1: 0

Alternative Veranstaltungen:

  • Seminar Data Engineer Einstieg

Modul 2: Moderne Informations-Architekturen im Zeitalter von Big Data.

Die moderne Verarbeitung von Informationen muss nicht nur große Datenmengen handhaben können, sondern unter Umständen auch in der Lage sein, zeitnah Ergebnisse bereit zu stellen. Dies ist mit dem klassischen Architekturansatz nicht lösbar und so sind verschiedene Architekturansätze entstanden, die alle auf einer verteilten Speicherung und Verarbeitung der Daten beruhen und den unterschiedlichsten Anforderungen gerecht werden.

In diesem Modul lernen die Teilnehmer auf Hadoop basierende Architekturen kennen, die entweder für die Stapelverarbeitung oder die Verarbeitung nahe Echtzeit eingesetzt werden können sowie eine Kombination aus beiden Anforderungen.

Die Teilnehmer aktivieren in einer praktischen Übung ihre individuelle Arbeitsumgebung auf der Grundlage eines virtualisierten Hadoop-Clusters.

Credits für Modul 2: 5

Alternative Veranstaltungen:

  • Seminar Big Data Einstieg (3 Credits).
  • Seminar Big Data Architekturen Überblick (5 Credits).

Modul 3: Die Speicherung von Daten im Zeitalter von Big Data.

Die traditionelle Speicherung von Daten in "strukturierter" Form auf einem zentralen Server hat enorm an Bedeutung verloren. Heute speichert man die Daten verteilt und zumeist nur gering strukturiert, immer öfters aber auch in der Cloud.

In diesem Abschnitt lernen die Teilnehmer das verteilte Dateisystem HDFS lernen sowie verschiedene Möglichkeiten der Datenhaltung in NoSQL-Datenbanken.

Die gewonnenen Erkenntnisse werden in praktischen Übungen (Labs) vertieft.

Credits für Modul 3: 10

Alternative Veranstaltungen:

  • Seminar Hortonworks Einstieg (3 Credits) oder Cloudera Einstieg (3 Credits)
  • Seminar Hadoop im Rechenzentrum Überblick (2 Credits)
  • Seminar Hadoop in der Cloud Überblick (2 Credits)
  • Kurs HDFS Vertiefung (5 Credits)
  • Seminar NoSQL Überblick (5 Credits).

Modul 4: Die Aufbereitung von Daten im Zeitalter von Big Data.

Je nach gewählter Architektur stehen sowohl für die Stapelverarbeitung als auch für die permanente Aufbereitung von Daten unterschiedliche Konzepte und Komponenten zur Verfügung. Für die Stapelverarbeitung kommt immer noch recht häufig MapReduce zum Einsatz, welches entweder direkt oder in Form von darauf aufsetzenden Werkzeugen (wie beispielsweise Pig) genutzt wird. Für die permanente Aufbereitung von Daten wird in der Regel ein Queue-basierter Ansatz auf der Basis von Kafka verfolgt.

Darüber hinaus stehen vollständige IDEs (Integrated Development Environments) für die Aufbereitung von Daten für Big Data zur Verfügung. Neben den traditionellen ETL-Anbietern wie beispielsweise Talend oder Pentaho, die ihre Angebote entsprechend erweitert haben, sind es vor allem neue Konzepte, wie sie zum Beispiel mit der Open Source-Lösung NiFi umgesetzt werden.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer zahlreiche praktische Aufgabenstellungen.

Credits für Modul 4: 15

Alternative Veranstaltungen:

  • Seminar Hadoop Datentechnologien Überblick (5 Credits).
  • Kurs Hortonworks HDF Vertiefung (5 Credits).
  • Kurs Apache Kafka Vertiefung (5 Credits).

Modul 5: Die Evaluierung von Daten im Zeitalter von Big Data.

Für die Evaluierung von Daten im Kontext von Big Data stehen eine Vielzahl von Möglichkeiten je nach Datengrundlage und favorisierter Anwendung zur Verfügung. Die vertrauteste Form bietet immer noch die SQL-basierte Evaluierung, die unter der Voraussetzung von definierten Datenstrukturen mit Werkzeugen wie Hive, Kudu, Phoenix oder Impala möglich ist. Darüber hinaus steht mit Spark SQL eine mächtige Engine zur Verfügung, mit der in einer interaktiven Konsolenanwendung SQL-Abfragen ausgeführt werden können.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Zusätzlich werden Alternativen im Überblick vorgestellt, die auf einem nicht SQL-basierten Ansatz beruhen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen neben Hive und Spark SQL mit der Komponente Phoenix (Hortonworks) oder mit Kudu und Impala (Cloudera).

Credits für Modul 5: 20

Alternative Veranstaltungen:

  • Kurs Apache HBase Vertiefung (5 Credits).
  • Kurs Apache Hive Vertiefung (5 Credits).
  • Kurs Apache Impala Vertiefung (5 Credits).
  • Kurs Apache Spark SQL Vertiefung (10 Credits).
  • Kurs Apache Spark Vertiefung (10 Credits).

Modul 6: Programmierung im Zeitalter von Big Data.

Im Kontext von Big Data haben sich eine Vielzahl von Programmiersprachen etabliert, wovon im produktiven Umfeld die Sprache Java und in bestimmten Umfang auch Scala dominieren. Mittlerweile kommt jedoch auch verstärkt Python in der Produktion zum Einsatz, weil die Performance-Nachteile deutlich reduziert werden konnten.

Da der Zugriff von der Konsole bereits im Modul 5 thematisiert wurde und für produktive Anwendungen kaum in Frage kommt, wird in diesem Modul der Schwerpunkt auf die Sprachen Python und Java gelegt.

Die Teilnehmer machen sich mit den Basis-Konstrukten von Python und Java vertraut und lernen Notebook-Anwendungen wie beispielsweise Jupyter, Zeppelin oder die Cloudera Data Science Workbench und NiFi kennen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen mit dem Data Framework von Hortonworks der Cloudera Data Science Workbench.

Credits für Modul 6: 20

Alternative Veranstaltungen:

  • Kurs Spark Vertiefung (10 Credits).
  • Kurs Hadoop und Python Vertiefung (10 Credits).
  • Kurs Hadoop und Java Vertiefung (10 Credits).

Modul 7: Data Governance im Zeitalter von Big Data.

Exakte Metadatenbeschreibungen, Hohe Datenqualität, Zugriffsbeschränkungen auf die Daten sowie Kontrollmöglichkeiten für Datenzugriffe sind nur einige wenige Aspekte, die unter dem Begriff Data Governance zusammengefasst werden und die im Zeitalter von Big Data eine völlig neue Dimension erhalten. Die Teilnehmer machen sich mit den Anforderungen, den technischen Möglichkeiten, aber auch den praktischen Schwierigkeiten vertraut, die mit der Umsetzung von Data Governance verbunden sind und lernen verschiedene Hilfsmittel kennen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen zu den Themen Security, Auditing und Data Quality mit den Komponenten der jeweiligen Distribution.

Credits für Modul 7: 15

Alternative Veranstaltungen:

  • Seminar Big Data Governance Überblick (15 Credits).

Modul 8: Die produktive Bereitstellung von Daten im Zeitalter von Big Data.

Am Ende steht die dauerhafte Bereitstellung von Daten für die produktive Verwendung. Dazu sind neben den funktionalen Aspekten – genau wie im klassischen Data Warehouse-Vorbild – eine Vielzahl von nichtfunktionalen Anforderungen zu erfüllen.

In diesem Modul werden diese nichtfunktionalen Anforderungen im Kontext von Big Data in den Mittelpunkt gestellt und ausführlich demonstriert.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen zu den Themen BackUp, Logging, Überwachung und Benachrichtigung mit den Komponenten der jeweiligen Distribution.

Credits für Modul 8: 15

 

Test "Data Engineer Tools Spezialisierung".

Voraussetzung für die Teilnahme am Test "Data Engineer Tools Spezialisierung" sind 100 Credits, die in den Modulen 1 bis 8 oder gegebenenfalls in anderen Seminaren und Kursen gesammelt werden konnten.

Diese Seite weiterempfehlen