Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Überblick über Spracherkennungstechnologien
- Geschichte und Entwicklung der Spracherkennung
- Akustische Modelle, Sprachmodelle und Decodierung
- Moderne Architekturen: RNNs, Transformer und Whisper
Audiovorverarbeitung und Grundlagen der Transkription
- Umgang mit Audioformaten und Abtafraten
- Bereinigung, Zuschnitt und Segmentierung von Audiodateien
- Textgenerierung aus Audio: Echtzeit vs. Batch
Praxis mit Whisper und anderen APIs
- Installation und Nutzung von OpenAI Whisper
- Aufrufen von Cloud-APIs (Google, Azure) für die Transkription
- Vergleich von Leistung, Latenz und Kosten
Sprache, Akzente und Domänenanpassung
- Arbeit mit mehreren Sprachen und Akzenten
- Individuelle Vokabulare und Rauschtoleranz
- Umgang mit juristischen, medizinischen oder technischen Fachbegriffen
Formatierung der Ausgabe und Integration
- Hinzufügen von Zeitstempeln, Zeichensetzung und Sprecherkennung
- Exportieren in Text-, SRT- oder JSON-Formaten
- Integration der Transkriptionen in Anwendungen oder Datenbanken
Labore zur Implementierung von Anwendungsfällen
- Transkribieren von Meetings, Interviews oder Podcasts
- Sprach-zu-Text-Befehlssysteme
- Echtzeit-Untertitel für Video-/Audio-Streams
Bewertung, Einschränkungen und Ethik
- Genauigkeitsmetriken und Modellbenchmarking
- Bias und Fairness in Spracherkennungsmodellen
- Datenschutz- und Compliance-Aspekte
Zusammenfassung und nächste Schritte
Voraussetzungen
- Grundverständnis von allgemeinen KI- und Machine-Learning-Konzepten
- Vertrautheit mit Audio- oder Medienformaten und -tools
Zielgruppe
- Data Scientists und KI-Ingenieure, die mit Sprachdaten arbeiten
- Softwareentwickler, die auf Transkription basierende Anwendungen erstellen
- Organisationen, die Spracherkennung zur Automatisierung evaluieren
14 Stunden