Schulungsübersicht

Einführung in Mistral-Multimodal-Modelle

  • Überblick über Mistral Medium und multimodale Fähigkeiten
  • OCR/Dokumentmodelle und Anwendungsfälle
  • Integration mit Open-Source-Ökosystemen

OCR- und Vision-Pipelines

  • Grundlagen der OCR mit Mistral-Modellen
  • Vorbereitung von Bildern und gescannten Dokumenten
  • Auszug strukturierter Texte aus Bildern

Dokumentverstehen

  • Entwicklung von NLP-Pipelines für Dokumente
  • Entitätserkennung, Zusammenfassung und Klassifizierung
  • Kreuzmodales Verknüpfen von Text- und Vision-Daten

Such- und Wissensanwendungen

  • Vision-Text-Suchsysteme
  • Aufbau semantischer Suche mit OCR-Ausgaben
  • Unternehmensdokumentenrepositorien

Assistive und interaktive Anwendungen

  • UI-Design für multimodale Assistenten
  • Barrierefreie Anwendungen (z.B. Vision-to-Text)
  • Realwelt-Produktivitätstools

Leistung und Optimierung

  • Skalieren multimodaler Pipelines
  • Fine-tuning der Inferenzleistung
  • Bewerten von Genauigkeit- und Effizienz-Kompromissen

Fallstudien und zukünftige Richtungen

  • Industrieanwendungen multimodaler KI
  • Forschungstrends in OCR und Dokument-KI
  • Verantwortliche KI-Überlegungen in Vision-Text-Aufgaben

Zusammenfassung und Nächste Schritte

Voraussetzungen

  • Eine Verständnis von Konzepten der natürlichen Sprachverarbeitung (NLP)
  • Erfahrung mit Python und ML-Frameworks
  • Grundkenntnisse in Computer Vision

Zielgruppe

  • Produktteams
  • ML-Forscher
  • Anwendende ML-Ingenieure
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien