Schulungsübersicht

Machine Learning Einführung

  • Arten der maschinellen Lernverfahren – überwachtes vs. unüberwachtes Lernen
  • Von statistischem Lernen zu maschinellem Lernen
  • Der Datenmining-Prozess: Geschäftsverständnis, Datenvorbereitung, Modellierung, Implementierung
  • Auswahl des richtigen Algorithmus für die Aufgabe
  • Übertreibung und der Bias-Varianz-Kompromiss

Python und ML-Bibliotheken-Übersicht

  • Warum Programmiersprachen für ML verwenden
  • Auswahl zwischen R und Python
  • Kurze Einführung in Python und Jupyter Notebooks
  • Python-Bibliotheken: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testen und Evaluieren von ML-Algorithmen

  • Allgemeinheit, Übertreibung und Modellvalidierung
  • Evaluierungsstrategien: Holdout, Kreuzvalidierung, Bootstrap
  • Metriken für Regression: ME, MSE, RMSE, MAPE
  • Metriken für Klassifikation: Genauigkeit, Verwirrungsmatrix, unbalancierte Klassen
  • Visualisierung der Modellleistung: Profitkurve, ROC-Kurve, Liftkurve
  • Modellauswahl und Grid Search zur Optimierung

Datenvorbereitung

  • Datenimport und -speicherung in Python
  • Explorative Analyse und Zusammenfassungsstatistiken
  • Umgang mit fehlenden Werten und Ausreißern
  • Standardisierung, Normalisierung und Transformation
  • Kodierung qualitativer Daten und Datenaufbereitung mit pandas

Klassifikationsalgorithmen

  • Binarische vs. mehrklassige Klassifizierung
  • Logistische Regression und Diskriminanzfunktionen
  • Naïve Bayes, k-Nächste-Nachbarn
  • Entscheidungsbaum: CART, Random Forests, Bagging, Boosting, XGBoost
  • Support Vector Machines und Kerne
  • Kollektives Lernen-Techniken

Regression und numerische Vorhersage

  • Least Squares und Variablenselektion
  • Regularisierungsmethoden: L1, L2
  • Polynomiale Regression und nichtlineare Modelle
  • Regressionsbäume und Splines

Neural Networks

  • Einführung in neuronale Netze und Deep Learning
  • Aktivierungsfunktionen, Schichten und Rückwärtspropagation
  • Mehrschichtige Perzeptronen (MLP)
  • Verwendung von TensorFlow oder PyTorch für grundlegende neuronale Netz-Modellierung
  • Neuronale Netze für Klassifikation und Regression

Vorhersage der Verkäufe Forecasting und Predictive Analytics

  • Zeitreihen vs. regressive Vorhersage
  • Umgang mit saisonalen und trendbasierten Daten
  • Erstellen eines Verkaufsprognosemodells unter Verwendung von ML-Techniken
  • Abschätzung der Prognosegenauigkeit und -unsicherheit
  • Business Interpretation und Kommunikation der Ergebnisse

Unsupervised Learning

  • Klusteringtechniken: k-Means, k-Medoids, hierarchisches Clustering, SOMs
  • Dimensionsreduktion: PCA, Faktorenanalyse, SVD
  • Mehrdimensionale Skalierung

Text Mining

  • Vorverarbeitung und Tokenisierung von Texten
  • Bag-of-Words, Stemming und Lemmatisierung
  • Sentimentanalyse und Worthäufigkeit
  • Visualisierung von Textdaten mit Word Clouds

Empfehlungssysteme

  • Nutzerbasierte und artikellistebasierte Collaborative Filtering
  • Gestaltung und Bewertung von Empfehlungsengines

Mustererkennung in Verkaufsdaten (Association Pattern Mining)

  • Häufige Itemsets und Apriori-Algorithmus
  • Market-Basket-Analyse und Lift-Ratio

Auffindung von Ausreißern

  • Analyse extremaler Werte
  • Distanz-basierte und Dichtebasierte Methoden
  • Auffinden von Ausreißern in hochdimensionalen Daten

Machine Learning Fallstudie

  • Verständnis des Geschäftsauftrags
  • Datenvorbereitung und Merkmalsingenieurwesen
  • Auswahl und Optimierung des Modells
  • Bewertung und Präsentation der Ergebnisse
  • Implementierung

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Basiswissen über maschinelles Lernen wie beispielsweise überwachtes und unüberwachtes Lernen
  • Familiär mit Python Programmierung (Variablen, Schleifen, Funktionen)
  • Eine gewisse Erfahrung im Umgang mit Daten mithilfe von Bibliotheken wie pandas oder NumPy ist hilfreich, aber nicht erforderlich
  • Keine vorherige Erfahrung mit fortgeschrittenem Modellieren oder neuronalen Netzen wird erwartet

Zielgruppe

  • Datenwissenschaftler
  • Business Analysten
  • Softwareentwickler und technische Fachkräfte, die mit Daten arbeiten
 28 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (2)

Kommende Kurse

Verwandte Kategorien