Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
EXO Infrastructure as Code
- Übersicht über EXO-Bereitstellungsmuster: Single-Node-, Multi-Node- und RDMA-Cluster
- Automatisierung der Abhängigkeitsinstallation (Xcode, uv, Node.js, Rust) mit Konfigurationsverwaltung
- Verwendung von Nix Flakes für reproduzierbare EXO-Builds und Entwicklerumgebungen
- Verfassen von Ansible Playbooks oder Shell-Skripten für die unbeaufsichtigte Cluster-Bereitstellung
Reproduzierbare Builds und CI-Integration
- Pin-Dependencies und Erstellen des Dashboards in CI-Pipelines
- Ausführen von EXO-Rauchmelder-Tests (Smoke Tests) in GitHub Actions oder GitLab CI-Läufen
- Erstellen von Golden Images und Rollback-Workflows auf Basis von Snapshots für macOS- und Linux-VMs
- Versionierung benutzerdefinierter Modellkarten zusammen mit dem Anwendungscode
Cluster-Discovery und Netzwerkautomatisierung
- Konfiguration von mDNS und statischem DNS für eine zuverlässige libp2p-Node-Discovery
- Automatisierung der Erstellung von Netzwerkprofilen und Verwaltung von Thunderbolt-Bridges unter macOS
- Nutzung benutzerdefinierter Namespaces (EXO_LIBP2P_NAMESPACE) zur Trennung von Entwicklungs-, Staging- und Produktionsclustern
- Firewall-Regeln und Netzwerksegmentierung für Multitenant-Umgebungen
Speicherverwaltung und Modell-Lebenszyklus
- Entwurf von Strategien für EXO_MODELS_DIRS und EXO_MODELS_READ_ONLY_DIRS
- Mounten von NFS- oder SAN-Shares als schreibgeschützte Modellrepositorys für schnelle Provisioning
- Garbage Collection abgelaufener Caches und Aufbewahrungsrichtlinien für versionierte Gewichtungen
- Automatisierung des Vorab-Downloads von Modellen und Health Checks vor Rolling Updates
Überwachung und Alarmierung
- Übertragung von EXO-Logs an zentrale Logging-Systeme (ELK, Loki oder Splunk)
- Erstellen von Grafana-Dashboards basierend auf EXO_TRACING_ENABLED-Ausgaben
- Alarmierung bei Änderungen der Cluster-Mitgliedschaft, OOM-Ereignissen und Spitzen bei der Inferenz-Latenz
- Korrelation von macmon-Hardware-Telemetrie mit Performance-Einbrüchen bei Modellen
Updates, Rollbacks und Disaster Recovery
- Vorbereitung von EXO-Binary-Updates auf einem Canary-Knoten vor dem flottenweiten Rollout
- Modell-Level-Rollback: Wechseln zwischen quantisierten Versionen ohne Neuladen
- Sichern und Wiederherstellen des Cluster-Zustands, benutzerdefinierter Namespaces und gecachter Gewichtungen
- Dokumentieren von Recovery-Runbooks für Szenarien eines vollständigen Cluster-Neuaufbaus
Security-Hardening und Compliance
- Anwenden von TLS auf der Reverse-Proxy-Ebene (nginx, traefik) für das Dashboard und die API
- Implementierung von API-Rate-Limiting und IP-Whitelisting für EXO-Endpunkte
- Isolierung von Clustern mittels VLANs und Zero-Trust-Netzwerkrichtlinien
- Auditieren des Zugriffs und Pflegen eines Inventars bereitgestellter Modelle und Versionen
Voraussetzungen
- Erfahrung mit DevOps-Praktiken (CI/CD, IaC, Container-Orchestrierung)
- Vertrautheit mit der Systemadministration und Paketverwaltung unter macOS oder Linux
- Grundkenntnisse in Netzwerken, DNS und Speicher Konzepten
Zielgruppe
- DevOps-Ingenieure
- Infrastrukturarchitekten
- SREs, die für On-Premise-KI-Workloads verantwortlich sind
21 Stunden
Erfahrungsberichte (2)
Craig war extrem engagiert im Training und hat stets darauf geachtet, dass wir aufmerksam sind. Er passte die Beispiele an unsere täglichen Aktivitäten an und gab immer eine Antwort, wenn danach gefragt wurde, auch wenn die Information nicht im Präsentationsmaterial enthalten war.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Kurs - DevOps Foundation®
Maschinelle Übersetzung
Hoher Einsatz und Fachwissen des Trainers
Jacek - Softsystem
Kurs - DevOps Engineering Foundation (DOEF)®
Maschinelle Übersetzung