Einführung in Apache Spark und SparkSQL

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 3 Tage

Ziele

Seminar Teilnehmer erlernen, wie Sie die Basis für Ihr eigenes Spark Data-Warehouse anlegen. Kurs Teilnehmer erhalten eine praxisnahe Übersicht über die Einsatzmöglichkeiten in Apache Spark und die Arbeit mit verschiedenen Datenquellen und -formaten. Sie erfahren zudem anhand von Anwendungen, wie Sie in Spark mit strukturierten Daten arbeiten. Das Spark-Seminar bietet Ihnen zum Abschluss eine Perspektive auf weitere professionelle Anwendungen von Apache Spark.

Zielgruppe

Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts

Voraussetzungen

  • Grundkenntnisse SQL
  • Grundkenntnisse Java, Python und Scala
  • Grundkenntnisse in Hadoop sind von Vorteil

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

  • Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
  • Apache Spark im Kontext des Hadoop Ecosystems
  • Welche Unzulänglichkeiten löst Spark?
  • MapReduce vs. Spark: Ein kleines Beispiel
  • Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr

Daten: Quellen, Typen, Schnittstellen und Operationen

  • Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
  • Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
  • Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
  • Datenschnittstelle für strukturierte Daten: DataFrame
    • Merkmale strukturierter Daten
    • Datenoperationen: Manipulation und Transformation
    • Fortgeschrittene Themen: Aggregationen und Joins

SparkSQL: Arbeiten mit strukturierten Daten

  • (Kurze) Einführung in SQL
  • Hands-on SparkSQL
    • Spark Data Frames
    • Durchführen einer Spark SQL Query
    • Tables, Views, Databases, Selects und Joins

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden

  • Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
  • Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
  • It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
  • Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
  • It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
    • Fragen sie was passieren wird und nicht was passiert ist
    • Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert

Ziele

Seminar Teilnehmer erlernen, wie Sie die Basis für Ihr eigenes Spark Data-Warehouse anlegen. Kurs Teilnehmer erhalten eine praxisnahe Übersicht über die Einsatzmöglichkeiten in Apache Spark und die Arbeit mit verschiedenen Datenquellen und -formaten. Sie erfahren zudem anhand von Anwendungen, wie Sie in Spark mit strukturierten Daten arbeiten. Das Spark-Seminar bietet Ihnen zum Abschluss eine Perspektive auf weitere professionelle Anwendungen von Apache Spark.

Zielgruppe

Software/Data Architects, Software Developers, Data Scientists, (Business) Analysts

Voraussetzungen

  • Grundkenntnisse SQL
  • Grundkenntnisse Java, Python und Scala
  • Grundkenntnisse in Hadoop sind von Vorteil

Agenda

Warum Apache Spark? Eine Übersicht über Spark anhand kleinerer Anwendungen mit Scala

  • Big Data und Cluster: Klassische Fragestellungen im Bereich Big-Data erläutern: Welche Herausforderungen entstehen durch Big-Data?
  • Apache Spark im Kontext des Hadoop Ecosystems
  • Welche Unzulänglichkeiten löst Spark?
  • MapReduce vs. Spark: Ein kleines Beispiel
  • Was genau ist Apache Spark?: 4 Komponenten, 4 APIs (Kompatibilität zu 4 Sprachen) und vieles mehr

Daten: Quellen, Typen, Schnittstellen und Operationen

  • Arbeiten mit unterschiedlichen Datenquellen, Datentypen, Datenschnittstellen und den wichtigsten Datenoperationen
  • Datenquellen: Storage Layers for Spark (CSV, JSON, SQL, TXT)
  • Unterschiedliche Datentypen (z.B. Boolean, Zahlenrepräsentation, Strings, Timestamps, Nulls, Orderings, …)
  • Datenschnittstelle für strukturierte Daten: DataFrame
    • Merkmale strukturierter Daten
    • Datenoperationen: Manipulation und Transformation
    • Fortgeschrittene Themen: Aggregationen und Joins

SparkSQL: Arbeiten mit strukturierten Daten

  • (Kurze) Einführung in SQL
  • Hands-on SparkSQL
    • Spark Data Frames
    • Durchführen einer Spark SQL Query
    • Tables, Views, Databases, Selects und Joins

Ausblick: Der Weg zu Ihrem Spark Data-Warehouse

Im modernen Spark Data-Warehouse werden Cloudtechnologien, Machine Learning Algorithmen und strukturierte sowie unstrukturierte Datenstrukturen verbunden

  • Easy scalable – Verarbeiten Sie große Mengen an Daten durch einfache Skalierbarkeit
  • Lightning fast – Selbst viele parallele Anfragen zwingen Ihr Spark DWH nicht in die Knie
  • It's in the cloud – Profitieren Sie von reinen Cloud-oder Hypridsystemen (z.B. MS Azure, Databricks, und AWS)
  • Data beats emotions – Treffen Sie datengetriebene Entscheidugen und verlassen Sie sich nicht mehr länger nur auf Ihr Bauchgefühl
  • It's time to ask different questions – Stellen sie neure Anforderungen an Ihr Data Warehouse
    • Fragen sie was passieren wird und nicht was passiert ist
    • Fragen Sie nicht warum etwas passiert ist, sondern welche Maßnahmen sie ergreifen müssen das etwas passiert

Tags

Diese Seite weiterempfehlen