Kontakt aufnehmen

Schulungsübersicht

Grundlagen der Tencent Hunyuan-Produktion

  • Übersicht über Serving-Szenarien von Tencent Hunyuan-Modellen
  • Produktionseigenschaften großer Modelle und MoE-Modelle
  • Häufige Engpässe bei Latenz, Durchsatz und Kosten
  • Definition von Service-Level-Zielen (SLOs) für Inferenz-Workloads

Bereitstellungsarchitektur und Serving-Flow

  • Kernkomponenten eines Produktions-Inferenzstacks
  • Entscheidung zwischen containerisierten, On-Premise- und Cloud-Bereitstellungsmodellen
  • Grundlagen zum Laden von Modellen, zum Routing von Anfragen und zur GPU-Zuweisung
  • Gestaltung für Zuverlässigkeit und betriebliche Einfachheit

Latenzoptimierung in der Praxis

  • Einsatz von optimierten Inferenz-Engines wie TensorRT, wo anwendbar
  • KV-Cache-Konzepte und praktisches Cache-Tuning
  • Reduzierung von Startzeit, Warmup und Antwort-Overhead
  • Messung der Zeit bis zum ersten Token und der Token-Generierungsgeschwindigkeit

Durchsatz, Batching und GPU-Effizienz

  • Strategien für kontinuierliches Batching und Request-Batching
  • Verwaltung von Parallelität und Queue-Verhalten
  • Verbesserung der GPU-Auslastung ohne Beeinträchtigung der Benutzererfahrung
  • Umgang mit Langkontext- und Mixed-Workload-Anfragen

Quantisierung und Kostenkontrolle

  • Warum Quantisierung für die Produktionsserving entscheidend ist
  • Praktische Trade-offs von FP16, INT8 und anderen gängigen Präzisionsoptionen
  • Ausbalancieren von Modellqualität, Latenz und Infrastrukturkosten
  • Erstellen einer einfachen Checkliste zur Kostenoptimierung

Betrieb, Monitoring und Review der Einsatzbereitschaft

  • Auslöser für die automatische Skalierung von Inferenzdiensten
  • Überwachung von Latenz, Durchsatz, Cache-Nutzung und GPU-Gesundheit
  • Grundlagen zu Logging, Alerting und Incident-Response
  • Überprüfung einer Referenzbereitstellung und Erstellung eines Verbesserungsplans

Voraussetzungen

  • Grundlegendes Verständnis von Bereitstellungs- und Inferenzworkflows für große Sprachmodelle
  • Erfahrung mit Containern, Cloud- oder On-Premise-Infrastruktur sowie API-basierten Diensten
  • Praktische Kenntnisse in Python oder Systemengineering-Aufgaben

Zielgruppe

  • ML-Ingenieure, die LLMs in der Produktion einsetzen
  • Plattformingenieure, die für GPU-basierte Inferenzdienste verantwortlich sind
  • Lösungsarchitekten, die skalierbare KI-Serving-Plattformen entwerfen
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien