Kontakt aufnehmen

Schulungsübersicht

Überblick über Spracherkennungstechnologien

  • Geschichte und Entwicklung der Spracherkennung
  • Akustische Modelle, Sprachmodelle und Decodierung
  • Moderne Architekturen: RNNs, Transformer und Whisper

Audiovorverarbeitung und Grundlagen der Transkription

  • Umgang mit Audioformaten und Abtafraten
  • Bereinigung, Zuschnitt und Segmentierung von Audiodateien
  • Textgenerierung aus Audio: Echtzeit vs. Batch

Praxis mit Whisper und anderen APIs

  • Installation und Nutzung von OpenAI Whisper
  • Aufrufen von Cloud-APIs (Google, Azure) für die Transkription
  • Vergleich von Leistung, Latenz und Kosten

Sprache, Akzente und Domänenanpassung

  • Arbeit mit mehreren Sprachen und Akzenten
  • Individuelle Vokabulare und Rauschtoleranz
  • Umgang mit juristischen, medizinischen oder technischen Fachbegriffen

Formatierung der Ausgabe und Integration

  • Hinzufügen von Zeitstempeln, Zeichensetzung und Sprecherkennung
  • Exportieren in Text-, SRT- oder JSON-Formaten
  • Integration der Transkriptionen in Anwendungen oder Datenbanken

Labore zur Implementierung von Anwendungsfällen

  • Transkribieren von Meetings, Interviews oder Podcasts
  • Sprach-zu-Text-Befehlssysteme
  • Echtzeit-Untertitel für Video-/Audio-Streams

Bewertung, Einschränkungen und Ethik

  • Genauigkeitsmetriken und Modellbenchmarking
  • Bias und Fairness in Spracherkennungsmodellen
  • Datenschutz- und Compliance-Aspekte

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Grundverständnis von allgemeinen KI- und Machine-Learning-Konzepten
  • Vertrautheit mit Audio- oder Medienformaten und -tools

Zielgruppe

  • Data Scientists und KI-Ingenieure, die mit Sprachdaten arbeiten
  • Softwareentwickler, die auf Transkription basierende Anwendungen erstellen
  • Organisationen, die Spracherkennung zur Automatisierung evaluieren
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien