Schulungsübersicht
1. Einführung in Deep Reinforcement Learning
- Was ist Reinforcement Learning?
- Unterschied zwischen überwachtem, unüberwachtem und Reinforcement Learning
- Anwendungen von DRL im Jahr 2025 (Robotik, Gesundheitswesen, Finanzen, Logistik)
- Verstehen des Agenten-Umgebung-Interaktionszyklus
2. Grundlagen des Reinforcement Learnings
- Markov-Entscheidungsprozesse (MDP)
- Zustand, Aktion, Belohnung, Politik und Wertfunktionen
- Exploration vs. Exploitation-Kompromiss
- Monte-Carlo-Methoden und Temporal-Difference (TD)-Lernen
3. Implementierung grundlegender RL-Algorithmen
- Tabellarische Methoden: Dynamisches Programmieren, Politikbewertung und -iteration
- Q-Learning und SARSA
- Epsilon-greedy-Exploration und Abklingstrategien
- Implementierung von RL-Umgebungen mit OpenAI Gymnasium
4. Übergang zu Deep Reinforcement Learning
- Begrenzungen tabellarischer Methoden
- Nutzung von neuronalen Netzen für Funktionsapproximation
- Aufbau und Workflow des Deep Q-Networks (DQN)
- Erfahrungswiedergabe und Zielnetze
5. Fortgeschrittene DRL-Algorithmen
- Double DQN, Dueling DQN und Prioritized Experience Replay
- Policy Gradient Methoden: REINFORCE-Algorithmus
- Actor-Critic-Architekturen (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Arbeit mit kontinuierlichen Aktionenräumen
- Herausforderungen bei kontinuierlicher Steuerung
- Nutzung von DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktische Tools und Frameworks
- Nutzung von Stable-Baselines3 und Ray RLlib
- Protokollierung und Überwachung mit TensorBoard
- Hyperparameter-Tuning für DRL-Modelle
8. Reward Engineering und Umgebungsdesign
- Reward-Shaping und Penalty-Balancing
- Konzepte des Sim-to-real Transfer-Learnings
- Erstellung benutzerdefinierter Umgebungen in Gymnasium
9. Teilweise beobachtbare Umgebungen und Generalisierung
- Bearbeitung unvollständiger Zustandsinformationen (POMDPs)
- Gedächtnisbasierte Ansätze mit LSTMs und RNNs
- Verbesserung der Agenten-Robustheit und -Generalisierung
10. Spieltheorie und Multi-Agent Reinforcement Learning
- Einführung in Multi-Agent-Umgebungen
- Kooperation vs. Wettbewerb
- Anwendungen im adversären Training und Strategieoptimierung
11. Fallstudien und praktische Anwendungen
- Simulationen autonomer Fahrzeuge
- Dynamisches Preismodellieren und Handelsstrategien der Finanzmärkte
- Robotik und industrielle Automatisierung
12. Fehlerbehebung und Optimierung
- Diagnose instabiler Trainingsläufe
- Verwaltung von Reward-Sparsität und Overfitting
- Skalierung von DRL-Modellen auf GPUs und verteilten Systemen
13. Zusammenfassung und weitere Schritte
- Zusammenfassung der DRL-Architektur und wichtiger Algorithmen
- Branzentwicklungen und Forschungsrichtungen (z.B. RLHF, hybride Modelle)
- Weitere Ressourcen und Lesematerialien
Voraussetzungen
- Fachwissen in Python-Programmierung
- Grundverständnis der Differential- und Integralrechnung sowie der linearen Algebra
- Grundkenntnisse in Wahrscheinlichkeitsrechnung und Statistik
- Erfahrung im Aufbau von maschinelles Lernen mit Python und NumPy oder TensorFlow/PyTorch
Zielgruppe
- Entwickler, die sich für KI und intelligente Systeme interessieren
- Data Scientists, die Reinforcement Learning-Frameworks erforschen
- Maschinelles Lernen Ingenieure, die mit autonomen Systemen arbeiten
Erfahrungsberichte (3)
Mir hat besonders der Schluss gefallen, als wir die Zeit nahmen, mit CHAT GPT herumzuspielen. Der Raum war dafür jedoch nicht optimal eingerichtet – anstelle eines großen Tisches wären ein paar kleinere Tische nützlicher gewesen, damit wir in kleinen Gruppen zusammenkommen und brainstormen könnten.
Nola - Laramie County Community College
Kurs - Artificial Intelligence (AI) Overview
Maschinelle Übersetzung
Nach grundlegenden Prinzipien arbeiten und sich innerhalb desselben Tages auf die Anwendung von Fallstudien konzentrieren
Maggie Webb - Department of Jobs, Regions, and Precincts
Kurs - Artificial Neural Networks, Machine Learning, Deep Thinking
Maschinelle Übersetzung
Dass es reale Firmendaten verwendete. Der Trainer hatte einen sehr guten Ansatz, indem er die Teilnehmer aktiv einbezog und sie miteinander wetteifern ließ.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Kurs - Applied AI from Scratch in Python
Maschinelle Übersetzung