Einführung in Apache Spark und SparkSQL
Classroom training | German | Claim
Duration of training: 3 days
Objectives
Seminar Teilnehmer erlernen, wie Sie die Basis für Ihr eigenes Spark Data-Warehouse anlegen. Kurs Teilnehmer erhalten eine praxisnahe Übersicht über die Einsatzmöglichkeiten in Apache Spark und die Arbeit mit verschiedenen Datenquellen und -formaten. Sie erfahren zudem anhand von Anwendungen, wie Sie in Spark mit strukturierten Daten arbeiten. Das Spark-Seminar bietet Ihnen zum Abschluss eine Perspektive auf weitere professionelle Anwendungen von Apache Spark.
Target audience
Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts
Requirements
- Grundkenntnisse SQL
- Grundkenntnisse Java, Python und Scala
- Grundkenntnisse in Hadoop sind von Vorteil
Agenda
Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala
- Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
- Apache Spark im Kontext des Hadoop Ecosystems
- Welche Unzulänglichkeiten löst Spark?
- MapReduce vs. Spark: Ein kleines Beispiel
- Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr
Daten: Quellen, Typen, Schnittstellen und Operationen
- Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
- Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
- Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
- Datenschnittstelle für strukturierte Daten: DataFrame
- Merkmale strukturierter Daten
- Datenoperationen: Manipulation und Transformation
- Fortgeschrittene Themen: Aggregationen und Joins
SparkSQL: Arbeiten mit strukturierten Daten
- (Kurze) Einführung in SQL
- Hands-on SparkSQL
- Spark Data Frames
- Durchführen einer Spark SQL Query
- Tables, Views, Databases, Selects und Joins
Ausblick: Der Weg zu Ihrem Spark Data-Warehouse
Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden
- Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
- Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
- It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
- Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
- It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
- Fragen sie was passieren wird und nicht was passiert ist
- Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert
Objectives
Seminar Teilnehmer erlernen, wie Sie die Basis für Ihr eigenes Spark Data-Warehouse anlegen. Kurs Teilnehmer erhalten eine praxisnahe Übersicht über die Einsatzmöglichkeiten in Apache Spark und die Arbeit mit verschiedenen Datenquellen und -formaten. Sie erfahren zudem anhand von Anwendungen, wie Sie in Spark mit strukturierten Daten arbeiten. Das Spark-Seminar bietet Ihnen zum Abschluss eine Perspektive auf weitere professionelle Anwendungen von Apache Spark.
Target audience
Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts
Requirements
- Grundkenntnisse SQL
- Grundkenntnisse Java, Python und Scala
- Grundkenntnisse in Hadoop sind von Vorteil
Agenda
Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala
- Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
- Apache Spark im Kontext des Hadoop Ecosystems
- Welche Unzulänglichkeiten löst Spark?
- MapReduce vs. Spark: Ein kleines Beispiel
- Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr
Daten: Quellen, Typen, Schnittstellen und Operationen
- Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
- Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
- Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
- Datenschnittstelle für strukturierte Daten: DataFrame
- Merkmale strukturierter Daten
- Datenoperationen: Manipulation und Transformation
- Fortgeschrittene Themen: Aggregationen und Joins
SparkSQL: Arbeiten mit strukturierten Daten
- (Kurze) Einführung in SQL
- Hands-on SparkSQL
- Spark Data Frames
- Durchführen einer Spark SQL Query
- Tables, Views, Databases, Selects und Joins
Ausblick: Der Weg zu Ihrem Spark Data-Warehouse
Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden
- Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
- Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
- It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
- Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
- It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
- Fragen sie was passieren wird und nicht was passiert ist
- Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert