Dokumentation — Projekt 2 (Voice Cloning)

Architektur

Dieses Projekt untersucht verschiedene Ansätze für Voice Cloning mit generativer KI, speziell für die deutsche Sprache.

┌─────────────────────────────────────────────────────────────────┐
│                    VOICE CLONING PIPELINE                       │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  1. DATENVORBEREITUNG                                           │
│  ┌──────────────┐    VAD + Slice    ┌──────────────┐           │
│  │  Video (MP4) │ ─────────────────▶│  WAV-Segmente│           │
│  │  mit Sprecher│    5-15 Sek.     │  (3-10 Sek.) │           │
│  └──────────────┘                  └──────────────┘           │
│                                                                  │
│  2. ZERO-SHOT TTS                                                 │
│  ┌──────────────┐    Referenz +   ┌──────────────┐           │
│  │  Segmente    │ ── Text ────────▶│  Synthetische│           │
│  │  (Stimme)    │                  │  Sprache     │           │
│  └──────────────┘                  └──────────────┘           │
│                                                                  │
│  3. BEWERTUNG                                                   │
│  ┌──────────────┐                                             │
│  │  Text-Klarheit│  Stimmen-Ähnlichkeit  Sound-Qualität      │
│  │  Räumlichkeit│                                             │
│  └──────────────┘                                             │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

Test-Strategie

Dimensions-Bewertung

Alle Tests werden nach vier Kriterien bewertet (je 1-5 Sterne):

Kriterium	Beschreibung	Gewichtung
Text-Klarheit	Wie gut ist der Text verständlich?	Hoch
Stimmen-Ähnlichkeit	Klingt es wie die Original-Stimme?	Hoch
Sound-Qualität	Klangqualität ohne Artefakte?	Mittel
Räumlichkeit	Natürlicher Raumklang/Stereo?	Mittel

Test-Texts

Standard-Test (für alle Modelle):
"Hallo, das ist ein Test. Wie klingt diese Stimme?"

Langer Text (Drift-Test):
"Hallo und herzlich willkommen. Dies ist ein Test der deutschen 
Sprachausgabe. Ich hoffe es klingt natürlich und klar."

Ergebnis-Zusammenfassung

Phase	Modell	Hardware	Gesamt	Status
Phase 1	F5-TTS	CPU (Docker)	2,5/5	✅ Erste Erkenntnisse
Phase 2	GPT-SoVITS v2	GPU (RTX A6000)	0/5	❌ Training gescheitert
Phase 3	XTTS v2	GPU (RTX A6000)	2,75/5	⚠️ Bestes Ergebnis
Phase 4	CosyVoice v2	GPU (RTX A6000)	2/5	⚠️ Guter Klang, kein Deutsch

Zentrale Erkenntnis

Kritische Einsicht

Kein Open-Source-Modell erreicht Produktionsqualität für deutsches Voice-Cloning.

Die verfügbaren Modelle (XTTS v2, CosyVoice, GPT-SoVITS) sind primär auf Englisch und Chinesisch trainiert. Deutsch wird toleriert, aber nicht meistert.

Lösungsansätze: 1. Mehr Trainingsdaten: 30+ Minuten deutsche Audio + Fine-Tuning 2. Kommerzielle APIs: ElevenLabs, Play.ht (kostenpflichtig) 3. Hybrid-Ansatz: Mehrere Modelle kombinieren

Ressourcen

Verwendete Modelle

Modell	URL	Lizenz
F5-TTS	https://github.com/SWivid/F5-TTS	MIT
GPT-SoVITS v2	https://github.com/RVC-Boss/GPT-SoVITS	MIT
XTTS v2	https://github.com/coqui-ai/TTS	CPML
CosyVoice v2	https://github.com/FunAudioLLM/CosyVoice	Apache 2.0

Tools

Tool	Verwendung
FFmpeg	Audio-Extraktion, Format-Konvertierung
PyAnnote	Voice Activity Detection (VAD)
Whisper	ASR (Automatic Speech Recognition)
ModelScope	Chinesischer Model-Hub
tmux	Persistente Terminal-Sessions

Hardware-Anforderungen

Komponente	Minimum	Empfohlen
GPU	—	NVIDIA RTX A6000 (48 GB)
RAM	8 GB	32 GB
Storage	50 GB	500 GB (SSD)
CUDA	—	12.1+