Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Sprachsynthese und Stimmenklo ning
- Übersicht über Text-zu-Sprache (TTS) und neuronale Sprachsynthese
- Stimmenklo ning vs. Spracherzeugung: Einsatzszenarien und Grenzen
- Wichtige Modelle: Tacotron, WaveNet, FastSpeech, VITS
Arbeit mit kommerziellen Plattformen
- Verwendung von ElevenLabs und Resemble AI
- Erstellung, Klonen und Bearbeiten von Stimmen
- API-Zugang und Text-zu-Sprache-Workflows
Arbeit mit Open-Source-Werkzeugen
- Installieren und Konfigurieren von Coqui TTS
- Training benutzerdefinierter Stimmen und Verwaltung von Datensätzen
- Erzeugung von Sprache mit feinem Einstellungsgrad (Tonhöhe, Geschwindigkeit, Emotion)
Datenbereitung und Stimmdatensatz Management
- Sammlen und Bereinigen von Stimmenproben
- Segmentierung, Kennzeichnung und Ausrichtung von Transkripten
- Ethische Herkunft und Stimmenzustimmung
Anwendungsentwicklung
- Einbetten von TTS in Websites und Anwendungen
- Erstellen von IVR-Systemen und interaktiven Bots
- Generieren synthetischer Dialoge für Videos und Spiele
Qualität und Realitätsnähe bewerten
- MOS (Bewertungsmittelwert) und Intelligibilitätstests
- Kontrolle der Ausdrucksfähigkeit und Prosodie
- Vergleich von Latenz, Fidilität und Realitätsnähe
Ethische, rechtliche und GoGovernance-Betrachtungen
- Risiken durch Deepfakes und verantwortungsvoller Einsatz
- Zustimmung, Zuschreibung und Urheberrechtsaspekte
- Vorschriften und Organisationsrichtlinien
Zusammenfassung und nächste Schritte
Voraussetzungen
- Grundverständnis der maschinellem Lernen
- Vertrautheit mit Audiodateiformaten und Bearbeitungstools
- Grundkenntnisse in Programmierung Python
Zielpublikum
- AI-Entwickler und -Ingenieure, die an Sprachsynthese interessiert sind
- Inhalts-Creator und Mediengestalter, die sich mit Stimmgenerierung befassen
- R&D-Teams, die personalisierte oder dynamische Audiosysteme aufbauen
14 Stunden