Einführung in Apache Spark und SparkSQL

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

Seminar Teilnehmer erlernen, wie Sie die Basis für Ihr eigenes Spark Data-Warehouse anlegen. Kurs Teilnehmer erhalten eine praxisnahe Übersicht über die Einsatzmöglichkeiten in Apache Spark und die Arbeit mit verschiedenen Datenquellen und -formaten. Sie erfahren zudem anhand von Anwendungen, wie Sie in Spark mit strukturierten Daten arbeiten. Das Spark-Seminar bietet Ihnen zum Abschluss eine Perspektive auf weitere professionelle Anwendungen von Apache Spark.

Zielgruppe

Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts

Voraussetzungen

Grundkenntnisse SQL
Grundkenntnisse Java, Python und Scala
Grundkenntnisse in Hadoop sind von Vorteil

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
Apache Spark im Kontext des Hadoop Ecosystems
Welche Unzulänglichkeiten löst Spark?
MapReduce vs. Spark: Ein kleines Beispiel
Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr

Daten: Quellen, Typen, Schnittstellen und Operationen

Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
Datenschnittstelle für strukturierte Daten: DataFrame
- Merkmale strukturierter Daten
- Datenoperationen: Manipulation und Transformation
- Fortgeschrittene Themen: Aggregationen und Joins

SparkSQL: Arbeiten mit strukturierten Daten

(Kurze) Einführung in SQL
Hands-on SparkSQL
- Spark Data Frames
- Durchführen einer Spark SQL Query
- Tables, Views, Databases, Selects und Joins

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden

Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
- Fragen sie was passieren wird und nicht was passiert ist
- Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert

Ziele

Zielgruppe

Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts

Voraussetzungen

Grundkenntnisse SQL
Grundkenntnisse Java, Python und Scala
Grundkenntnisse in Hadoop sind von Vorteil

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
Apache Spark im Kontext des Hadoop Ecosystems
Welche Unzulänglichkeiten löst Spark?
MapReduce vs. Spark: Ein kleines Beispiel
Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr

Daten: Quellen, Typen, Schnittstellen und Operationen

Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
Datenschnittstelle für strukturierte Daten: DataFrame
- Merkmale strukturierter Daten
- Datenoperationen: Manipulation und Transformation
- Fortgeschrittene Themen: Aggregationen und Joins

SparkSQL: Arbeiten mit strukturierten Daten

(Kurze) Einführung in SQL
Hands-on SparkSQL
- Spark Data Frames
- Durchführen einer Spark SQL Query
- Tables, Views, Databases, Selects und Joins

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden

Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
- Fragen sie was passieren wird und nicht was passiert ist
- Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert

Einführung in Apache Spark und SparkSQL

Ziele

Zielgruppe

Voraussetzungen

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

Daten: Quellen, Typen, Schnittstellen und Operationen

SparkSQL: Arbeiten mit strukturierten Daten

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Ziele

Zielgruppe

Voraussetzungen

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

Daten: Quellen, Typen, Schnittstellen und Operationen

SparkSQL: Arbeiten mit strukturierten Daten

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Tags

Diese Seite weiterempfehlen