Schulungsübersicht

Einführung in Vision-Language-Modelle

  • Überblick über VLMs und ihre Rolle in der multimodalen KI
  • Beliebte Architekturen: CLIP, Flamingo, BLIP, etc.
  • Anwendungsfälle: Suche, Beschriftung, autonome Systeme, Inhaltsanalyse

Vorbereitung der Feinabstimmungsumgebung

  • Einrichtung von OpenCLIP und anderen VLM-Bibliotheken
  • Datenformate für Bild-Text-Paare
  • Vorverarbeitungs-Pipelines für visuelle und sprachliche Eingaben

Feinabstimmung von CLIP und ähnlichen Modellen

  • Kontrastverlust und gemeinsame Einbettungsräume
  • Praktisch: Feinabstimmung von CLIP auf benutzerdefinierten Datensätzen
  • Bearbeitung domänenspezifischer und mehrsprachiger Daten

Fortgeschrittene Feinabstimmungsmethoden

  • Verwendung von LoRA und adapterbasierten Methoden für Effizienz
  • Prompt-Tuning und visuelle Prompt-Injektion
  • Vergleich von Zero-Shot- und feinabgestimmten Bewertungen

Bewertung und Benchmarking

  • Metriken für VLMs: Abrufgenauigkeit, BLEU, CIDEr, Wiederabruf
  • Diagnose der visuell-textlichen Ausrichtung
  • Visualisierung von Einbettungsräumen und Fehlklassifikationen

Bereitstellung und Nutzung in realen Anwendungen

  • Exportieren von Modellen zur Inferenz (TorchScript, ONNX)
  • Integration von VLMs in Pipelines oder APIs
  • Ressourcenüberlegungen und Modellskalierung

Fallstudien und angewendete Szenarien

  • Medienanalyse und Inhaltsmoderation
  • Suche und Abruf im E-Commerce und in digitalen Bibliotheken
  • Multimodale Interaktion in Robotik und autonomen Systemen

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Eine Verständnis tiefer Lernverfahren für Vision und NLP (Natural Language Processing)
  • Erfahrung mit PyTorch und transformer-basierten Modellen
  • Vertrautheit mit multimodalen Modellarchitekturen

Zielgruppe

  • Computer Vision Ingenieure
  • KI-Entwickler
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien