Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Sprachsynthese und das Stimmen-Kloning
- Überblick über Text-zu-Sprache (TTS) und neuronale Stimmensynthese
- Stimme-Kloning vs. Sprachgenerierung: Anwendungsfälle und Grenzen
- Wichtige Modelle: Tacotron, WaveNet, FastSpeech, VITS
Arbeit mit kommerziellen Plattformen
- Nutzung von ElevenLabs und Resemble AI
- Erzeugung, Kloning und Bearbeitung von Stimmen
- API-Zugang und Text-zu-Sprache-Arbeitsabläufe
Entwicklung mit quelloffenen Tools
- Installation und Konfiguration von Coqui TTS
- Training benutzerdefinierter Stimmen und Verwaltung von Datensätzen
- Generierung von Sprache mit feiner Kontrolle (Tonhöhe, Geschwindigkeit, Emotion)
Datenvorbereitung und Verwaltung von Stimmdatensätzen
- Sammlung und Bereinigung von Stimmpobenalten
- Segmentierung, Beschriftung und Ausrichtung von Transkriptionen
- Ethische Beschaffung und Einwilligung zur Stimmennutzung
Integration in Anwendungen
- Einbettung von TTS-Technologien in Websites und Anwendungen
- Erstellung von IVR-Systemen und interaktiven Bots
- Generierung synthetischer Dialoge für Video und Spiele
Bewertung von Qualität und Realismus
- MOS (Mean Opinion Score) und Verständlichkeitstests
- Steuerung von Ausdrucksstärke und Prosodie
- Vergleich von Latenz, Treue und Realismus
Ethische, rechtliche und governance-bezogene Überlegungen
- Risiken durch Deepfakes und verantwortungsvoller Umgang
- Einwilligung, Quellenangabe und urheberrechtliche Implikationen
- Vorschriften und organisationsinterne Richtlinien
Zusammenfassung und nächste Schritte
Voraussetzungen
- Grundkenntnisse in Machine Learning
- Vertrautheit mit Audio-Dateiformaten und Bearbeitungstools
- Einfache Programmierkenntnisse in Python
Zielgruppe
- KI-Entwickler und -Ingenieure, die sich für Sprachsynthese interessieren
- Content-Creator und Medientechnologen, die die Stimmegenerierung erkunden
- F&E-Teams, die personalisierte oder dynamische Audiosysteme entwickeln
14 Stunden