Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in AIOps
- Was ist AIOps und warum es wichtig ist
- Traditionelle Überwachung vs. AIOps-getriebene Observability
- AIOps-Architektur und Schlüsselemente
Erfassung und Normalisierung von Operations-Daten
- Arten von Observability-Daten: Metriken, Logs und Spuren
- Daten von mehreren Quellen erfassen (Server, Container, Cloud)
- Verwendung von Agents und Exportern (Prometheus, Beats, Fluentd)
Datencorrelation und Anomalieerkennung
- Zeitreihenkorrelation und statistische Methoden
- Verwendung von ML-Modellen für Anomalieerkennung
- Erkennen von Incidents in verteilten Systemen
Alarmierung und Lärmreduzierung
- Design intelligent einiger Alarmregeln und Schwelleinstellungen
- Aufhebung, Duplikatsprüfung und Gruppieren von Alarmsignalen
- Integration mit Alertmanager, Slack, PagerDuty oder Opsgenie
Ursachenanalyse und Visualisierung
- Verwendung von Dashboards zur Visualisierung von Metriken und Trendserkennung
- Untersuchung von Ereignissen und Zeitachsen für die Ursachenanalyse (RCA)
- Spurenverfolgung über Schichten mit verteilten Tracing-Tools
Automatisierung und Remidiation
- Auslösen von automatisierten Skripten oder Workflows aus Incidents
- Integration mit ITSM-Systemen (ServiceNow, Jira)
- Einsatzfälle: Selbstheilung, Skalierung, Traffic-Umleitung
Open Source und kommerzielle AIOps-Plattformen
- Überblick über Tools: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Bewertungskriterien für die Auswahl einer AIOps-Plattform
- Demo und praktische Übung mit einem ausgewählten Stack
Zusammenfassung und nächste Schritte
Voraussetzungen
- Ein Verständnis von IT-Operationen und Systemüberwachungskonzepten
- Erfahrung mit Überwachungstools oder -dashboards
- Bekanntschaft mit grundlegenden Log- und Metrikformaten
Zielgruppe
- Operations-Teams, die für Infrastruktur und Anwendungen verantwortlich sind
- Site Reliability Engineers (SREs)
- IT-Monitoring- und Observability-Teams
14 Stunden