Schulungsübersicht

Überblick über Speech Recognition Technologien

  • Geschichte und Entwicklung der Spracherkennung
  • Akustische Modelle, Sprachmodelle und Decodierung
  • Moderne Architekturen: RNNs, Transformer und Whisper

Audio-Vorverarbeitung und Grundlagen der Transkription

  • Umgang mit Audioformate und Abtastraten
  • Reinigen, Kürzen und Aufteilen von Audiodateien
  • Erstellen von Text aus Audio: Echtzeit vs. Batchverarbeitung

Praxis mit Whisper und anderen APIs

  • Installieren und Verwenden von OpenAI Whisper
  • Aufrufen von Cloud-APIS (Google, Azure) für Transkription
  • Vergleich von Leistung, Latenz und Kosten

Sprachen, Akzente und Domänenanpassung

  • Arbeiten mit mehreren Sprachen und Akzenten
  • Benutzerdefinierte Vokabulare und Geräuschtoleranz
  • Umgang mit rechtlichen, medizinischen oder technischen Sprachstilen

Ausgabeformatierung und Integration

  • Hinzufügen von Zeitstempeln, Interpunktion und Sprecher-Labels
  • Exportieren in Text-, SRT- oder JSON-Formate
  • Integration der Transkriptionen in Anwendungen oder Datenbanken

Use Case Implementierungslabs

  • Transkribieren von Meetings, Interviews oder Podcasts
  • Sprach-basierte Kommando-Systeme
  • Echtzeit-Untertitel für Videostreams/Audiostreams

Evaluation, Grenzen und Ethik

  • Genauigkeitsmetriken und Modellbewertung
  • Bias und Fairness in Sprachmodellen
  • Überlegungen zur Datenschutz- und Vorschriftenkonformität

Zusammenfassung und Nächste Schritte

Voraussetzungen

  • Ein Grundverständnis von allgemeinen AI- und maschinellem Lernen-Konzepten
  • Familiär mit Audio- oder Mediendateiformaten und -tools

Zielgruppe

  • Datenwissenschaftler und AI-Ingenieure, die mit Stimmdaten arbeiten
  • Softwareentwickler von transkriptionbasierten Anwendungen
  • Organisationen, die Spracherkennung für Automatisierung erkunden
 14 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Kommende Kurse

Verwandte Kategorien