Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Multimodalität von Gemini 3
- Fähigkeiten in Text, Bildern, Audio und Video
- Modellauswahl und Endpunktübersicht
- Grundlegende Konzepte der multimodalen Interpretation
Arbeit mit Text und strukturierten Eingaben
- Strategien für textbasierte Aufforderungen zur Generierung von Text
- Metadaten, Kontextfenster und Einbettungen (Embeddings)
- Textbasierte Koordination multimodaler Aufgaben
Bildverarbeitung und visuelle Workflows
- Bildanalyse und -interpretation mit Gemini 3
- Erstellung von visuellen Such- und Tagging-Tools
- Erstellen von Interaktionen zwischen Bildern und Text
Audio-Eingabeverarbeitung
- Spracherkennung und Transkription in Workflows
- Detektion und Interpretation von Audioereignissen
- Integration von Audio mit Text- und visuellen Eingaben
Video-Intelligenz und Szeneanalyse
- Bild-für-Bild- und kontinuierliche Videointerpretation
- Erstellung von Zusammenfassungs- und Highlights-Extraktionswerkzeugen
- Automatisierung und Content-Workflows auf Basis von Video
Designing Multimodaler Anwendungskonzepte
- Kombinieren verschiedener Eingabetypen in einem einzigen Workflow
- Latenz, Kosten und Rechenleistungserwägungen
- Best Practices für skalierbare multimodale Systeme
Prototyping Multimodal Applications
- Praktische Erstellung von multimodalen Prototypen
- Schnelle Iteration mit prompt-basiertem Engineering
- Testen und Verfeinerung von Benutzererfahrungsfällen
Deployment Multimodaler Lösungen
- Deployment-Strategien und Umgebungsaufbau
- Monitoring der realen Leistungsfähigkeit
- Sicherheits- und Compliance-Überlegungen
Zusammenfassung und Nächste Schritte
Voraussetzungen
- Ein Verständnis moderner KI-Konzepte
- Erfahrung mit Python oder JavaScript
- Kenntnisse von REST-APIs
Zielgruppe
- Designer
- Content Creator
- Technische Produktteams
14 Stunden
Erfahrungsberichte (1)
Flow, Stimmung und Themenstellung bei der Präsentation
Lukasz Kowalczyk - Allegro Sp. z o.o.
Kurs - Google Gemini AI for Data Analysis
Maschinelle Übersetzung