Einführung in Data Science mit Schwerpunkt Machine Learning

Classroom Schulung | Deutsch | Anspruch

Schulungsdauer: 2 Tage

Ziele

Im Rahmen dieses zweitägigen Seminars lernen die Teilnehmer grundlegende Techniken zur Datenanalyse mithilfe maschinellen Lernens. Ausgehend vom CRISP-DM-Modell lernen sie Werkzeuge kennen, um sich einen Überblick über eine große Menge an Daten zu verschaffen und Abhängigkeiten und Strukturen in den Daten zu erkennen.

Dabei werden Techniken zur Datenvorverarbeitung und zum Umgang mit Datenfehlern vermittelt.

Zentraler Bestandteil des Seminars ist es, ein Modell der Daten zu erstellen. Nach diesem Seminar verstehen die Teilnehmer verschiedene Techniken des Maschinellen Lernens und können diese anwenden, um zum Beispiel Klassifikationen, Vorhersagen oder Regressionen durchzuführen.

Die Teilnehmer können die Güte der erstellten Modelle validieren und können sie nutzen, um beispielsweise Anomalien oder Outlier oder Zusammenhänge und Ursachen zu erkennen.

Das Seminar setzt auf eine intensive Mischung aus Theorie und Praxis. Als Werkzeuge werden ScikitLearn und zahlreiche Code-Beispiele zum Einsatz kommen. Die Teilnehmerzahl ist auf sechs begrenzt.

Zielgruppe

Entwickler, Programmierer

Voraussetzungen

Grundsätzliches Programmierverständnis, Python-Kenntnisse sind hilfreich aber nicht notwendig, Machine-Learning-Kenntnisse werden nicht benötigt

Agenda

Einstieg in Data-Mining

CRISP-DM

Data Understanding und Data Preparation

Erster Überblick über die Daten
Datengruppierung und Clustering (z.B. k-Means)
Abhängigkeiten erkennen (z.B. Korrelationsanalyse)
Komplexitätsreduktion und Dimensionsreduktion (z.B. PCA)

Modelling und Machine Learning

Klassifikation und Regression
Umgang mit Fehlerbehafteten Daten (z.B. Bootstrapping, RANSAC)
Überwachte Lernverfahren des maschinellen Lernens (z.B. Nearest Neighbor, Bayes Learning, Gauss-Modelle, Kernel-SVM, Entscheidungsbäume, Random Forests)
Grundlagen der Neuronalen Netze
Assoziationsanalyse (z.B. Warenkorbanalyse)

Evaluation und Ergebnisvisualisierung

Validierungsstrategien, Gridsearch, Kreuzvalidierung
Outliererkennung (statistisch, ν-SVM)
Signifikanzanalysen (z.B. Stundent t-Test)
Datenvisualisierung