Kontakt aufnehmen

Schulungsübersicht

Einführung in EXO und lokales KI-Clustering

  • Übersicht über das EXO-Framework und das exo-explore-Ökosystem
  • Vergleich von zentralisierter Cloud-Inferenz gegen verteilte lokale Inferenz
  • Architektur: libp2p-Geräteerkennung, MLX-Backend, Dashboard und API-Schichten
  • Hardwareanforderungen: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, freigegebener Speicher

Installation von EXO auf macOS

  • Einrichten von Xcode, Metal ToolChain und macOS-Voraussetzungen
  • Installation von uv, Node.js, Rust nightly Toolchain
  • Installation des gepinnten macmon-Forks für Apple-Silicon-Überwachung
  • Klonen des Repositorys und Erstellen des Dashboards mit npm
  • Ausführen von EXO aus dem Quellcode und Verifizieren des localhost:52415 Dashboards

Installation von EXO auf Linux

  • Abhängigkeiten über apt oder Homebrew auf Linux installieren
  • Konfigurieren von uv, Node.js 18+, und Rust nightly
  • Erstellen des Dashboards und Ausführen von EXO im CPU-only-Modus
  • Verzeichnislayout: XDG-Basisverzeichnispfade für Konfiguration, Daten, Cache und Protokolle

Automatische Geräteerkennung und Clusterbildung

  • Verständnis der libp2p-basierten automatischen Erkennung über lokale Netzwerke
  • Konfigurieren von benutzerdefinierten Namespaces mit EXO_LIBP2P_NAMESPACE für Clusterisolation
  • Verifizieren der Knotenmitgliedschaft im Clusteransicht des Dashboards
  • Umgang mit Erkennungsfehlern und Netzwerksegmentierungsproblemen

RDMA über Thunderbolt 5 aktivieren

  • RDMA-Architektur und die Behauptung der 99-prozentigen Latenzreduzierung
  • RDMA im macOS-Wiederherstellungsmodus mit rdma_ctl aktivieren
  • Kabelanforderungen und Port-Topologieeinschränkungen auf Mac Studio
  • Ausgleich der macOS-Versionen über alle Clusterknoten hinweg
  • Lösen von RDMA-Erkennungs- und DHCP-Konfigurationsproblemen

Bereitstellung von前沿modellen

  • Verwenden des Dashboards zum Laden und Shardieren von DeepSeek v3.1, Qwen3-235B und Llama-Familie
  • Vorschau von Instanzplatzierungen mit dem /instance/previews API-Endpunkt
  • Erstellen von Modelinstanzen mit Pipeline- oder Tensor-Parallel-Sharding
  • Konfigurieren von benutzerdefinierten Modellkarten vom HuggingFace-Hub

Überwachung und Fehlerbehebung

  • Lesen von EXO-Protokollen und Verständnis der verteilten Nachverfolgung
  • Interpretieren der Cluster-Gesundheit in der Clusteransicht des Dashboards
  • Diagnose von Worker-Knotenausfällen und Wiederverbindungsverhalten
  • Verwenden von EXO_TRACING_ENABLED für die Analyse von Leistungsengpässen

Clusterwartung und Updates

  • Aktualisieren von EXO-Binärdateien und Dashboard-Wiederherstellungsverfahren
  • Migrieren von Modellcaches und Verwalten vorab heruntergeladener Modelle über NFS
  • Grazilles Entfernen von Knoten und Ausgleichen von Arbeitslasten

Voraussetzungen

  • Verständnis der Netzwerkgrundlagen (IP, Subnetting, Firewalls)
  • Erfahrung mit der macOS- oder Linux-Befehlszeilenadministration
  • Vertrautheit mit dem Python-Paketmanagement (pip/uv) und Node.js-Tooling

Zielgruppe

  • Systemadministratoren
  • DevOps-Ingenieure
  • KI-Infrastrukturarchitekten, die für die On-Premise-LLM-Bereitstellung zuständig sind
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien