Schulungsübersicht

Machine Learning Einführung

  • Arten der maschinellen Lernverfahren – überwachtes vs. unüberwachtes Lernen
  • Von statistischem Lernen zu maschinellem Lernen
  • Der Workflow des Datenminings: Geschäftsverständnis, Datenvorbereitung, Modellierung, Implementierung
  • Auswahl der richtigen Algorithmus für die Aufgabe
  • Overfitting und das Bias-Variance-Tradeoff

Python und ML-Bibliothekenübersicht

  • Warum Programmiersprachen für ML verwenden?
  • Auswahl zwischen R und Python
  • Kurze Einführung in Python und Jupyter-Notebooks
  • Python-Bibliotheken: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testen und Evaluieren von ML-Algorithmen

  • Allgemeinheit, Overfitting und Modellvalidierung
  • Evaluierungsstrategien: Holdout-Methode, Kreuzvalidierung, Bootstrapping
  • Metriken für Regression: ME, MSE, RMSE, MAPE
  • Metriken für Klassifikation: Genauigkeit, Verwirrungsmatrix, unbalancierte Klassen
  • Modellleistung visualisieren: Profitkurve, ROC-Kurve, Liftkurve
  • Modellauswahl und Grid Search zur Anpassung

Datenvorbereitung

  • Datenimport und Speicherung in Python
  • Explorative Analyse und Zusammenfassungsstatistiken
  • Umgang mit fehlenden Werten und Ausreißern
  • Standardisierung, Normalisierung und Transformation
  • Kodierung qualitativer Daten und Datenaufbereitung mit pandas

Klassifikationsalgorithmen

  • Zweiklassige vs. mehrklassige Klassifikation
  • Logistische Regression und Diskriminanzfunktionen
  • Naïve Bayes, k-Nächste-Nachbarn
  • Entscheidungsbaum: CART, Random Forests, Bagging, Boosting, XGBoost
  • Support Vector Machines und Kerne
  • Ensemble-Lernalgorithmen

Regression und numerische Vorhersage

  • Kleinste Quadrate und Variablenselektion
  • Regularisierungsmethoden: L1, L2
  • Polynomiale Regression und nichtlineare Modelle
  • Regressionsbäume und Splines

Unsupervised Learning

  • Klusterungstechniken: k-Means, k-Medoids, hierarchische Klustern, SOMs
  • Datenreduktion: PCA, Faktorenanalyse, SVD
  • Mehrdimensionale Skalierung

Text Mining

  • Vorverarbeitung und Tokenisierung von Texten
  • Bag-of-Words, Stemming und Lemmatisierung
  • Sentimentanalyse und Worthäufigkeiten
  • Visualisierung von Textdaten mit Word Clouds

Vorschlagsysteme

  • Nutzerbasiertes und item-basiertes Collaborative Filtering
  • Gestaltung und Bewertung von Vorschlagengeneratoren

Assoziationsmuster-Mining

  • Häufige Itemsets und Apriori-Algorithmus
  • Market-Basket-Analyse und Lift-Ratio

Ausreißerdetektion

  • Extremwertanalyse
  • Distanz-basierte und Dichte-basierte Methoden
  • Ausreißerdetektion in hochdimensionalen Daten

Machine Learning Fallstudie

  • Verständnis des Geschäftsauftrags
  • Datenvorbereitung und Merkmalsingenieurwesen
  • Modellauswahl und Parameteranpassung
  • Bewertung und Darstellung der Ergebnisse
  • Implementierung

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Eine Grundverständnis von Statistik und linearem Algebra
  • Bekanntschaft mit Datenanalyse oder Business-Intelligence Konzepten
  • Eine gewisse Exposition gegenüber Programmierung (vorzugsweise Python oder R) wird empfohlen
  • Interesse am Erlernen von angewandter maschinellem Lernen für datengesteuerte Projekte

Zielgruppe

  • Datenanalysten und -wissenschaftler
  • Statistiker und Forschungsexperten
  • Entwickler und IT-Professionals, die maschinelles Lernen Werkzeuge erkunden
  • Jeder, der an Datenwissenschaft oder vorhersagebasierte Analyseprojekte beteiligt ist
 21 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (3)

Kommende Kurse

Verwandte Kategorien