Schulungsübersicht

Einführung in die Multimodalität von Gemini 3

  • Fähigkeiten in Text, Bildern, Audio und Video
  • Modellauswahl und Endpunktübersicht
  • Grundlegende Konzepte der multimodalen Interpretation

Arbeit mit Text und strukturierten Eingaben

  • Strategien für textbasierte Aufforderungen zur Generierung von Text
  • Metadaten, Kontextfenster und Einbettungen (Embeddings)
  • Textbasierte Koordination multimodaler Aufgaben

Bildverarbeitung und visuelle Workflows

  • Bildanalyse und -interpretation mit Gemini 3
  • Erstellung von visuellen Such- und Tagging-Tools
  • Erstellen von Interaktionen zwischen Bildern und Text

Audio-Eingabeverarbeitung

  • Spracherkennung und Transkription in Workflows
  • Detektion und Interpretation von Audioereignissen
  • Integration von Audio mit Text- und visuellen Eingaben

Video-Intelligenz und Szeneanalyse

  • Bild-für-Bild- und kontinuierliche Videointerpretation
  • Erstellung von Zusammenfassungs- und Highlights-Extraktionswerkzeugen
  • Automatisierung und Content-Workflows auf Basis von Video

Designing Multimodaler Anwendungskonzepte

  • Kombinieren verschiedener Eingabetypen in einem einzigen Workflow
  • Latenz, Kosten und Rechenleistungserwägungen
  • Best Practices für skalierbare multimodale Systeme

Prototyping Multimodal Applications

  • Praktische Erstellung von multimodalen Prototypen
  • Schnelle Iteration mit prompt-basiertem Engineering
  • Testen und Verfeinerung von Benutzererfahrungsfällen

Deployment Multimodaler Lösungen

  • Deployment-Strategien und Umgebungsaufbau
  • Monitoring der realen Leistungsfähigkeit
  • Sicherheits- und Compliance-Überlegungen

Zusammenfassung und Nächste Schritte

Voraussetzungen

  • Ein Verständnis moderner KI-Konzepte
  • Erfahrung mit Python oder JavaScript
  • Kenntnisse von REST-APIs

Zielgruppe

  • Designer
  • Content Creator
  • Technische Produktteams
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien