Audio-Beispiele — Alle Tests im Vergleich

Referenz-Audio

Die Referenzstimme für alle Tests stammt aus einem deutschen Video. Extrahiert mittels Voice Activity Detection (VAD) und in 5-15 Sekunden Segmente geschnitten.

Modell	Text	Dauer	Bewertung
Referenz	Originale Stimme aus dem Video	~6 Sek.	Baseline

Phase 1: F5-TTS

Erstversuch auf CPU

Modell	Text	Dauer	Gesamt-Bewertung
F5-TTS	"Hallo, das ist ein Test"	~3 Sek.	2,5/5

Charakteristik: - Klingt wie "ein Niederländer, der Deutsch versucht" - Roboterhafte Artikulation - Deutsche Härte (Konsonanten) fehlt komplett

Phase 2: GPT-SoVITS

Training-Ergebnis

Modell	Text	Dauer	Gesamt-Bewertung
GPT-SoVITS	"Hallo, das ist ein Test"	~3 Sek.	0/5

Charakteristik: - Reines weißes Rauschen - Keine erkennbare Sprache - Training mit nur 3 Min. Daten gescheitert

Phase 3: XTTS v2

Verschiedene Tests

Test	Text	Dauer	Bewertung
Test 1 (Erste Generierung)	"Hallo, das ist ein Test"	~3 Sek.	2,5/5
Test 2 (Weniger Satzzeichen)	"Hallo das ist ein Test"	~3 Sek.	2,5/5
Test 3 (Schnelleres Tempo)	"Hallo, das ist ein Test"	~2,5 Sek.	2,75/5
Test 4 (Langer Text)	3 Sätze zusammen	~13 Sek.	2/5
Test 5 (Kurze Segmente)	3 Sätze einzeln	~18 Sek.	2,875/5

Charakteristik: - Verständlich, aber quengelig/weich - Bei langem Text: Wortsalat ab der Hälfte - Mit Segment-Lösung: Stabil, aber quengelig bleibt

Phase 4: CosyVoice

Zero-Shot Test

Modell	Text	Dauer	Gesamt-Bewertung
CosyVoice-300M	"Hallo und herzlich willkommen"	~4 Sek.	2/5

Charakteristik: - Guter Klang (3,5/5) - Aussprache katastrophal (0,5/5) - Fast nichts verständlich — nur einzelne Wörter - Modell hat kein Deutsch gelernt

Vergleichstabelle

Modell	Text-Klarheit	Stimmen-Ähnlichkeit	Sound-Qualität	Räumlichkeit	Gesamt
F5-TTS (CPU)	3/5	2/5	2,5/5	2/5	2,5/5
GPT-SoVITS (GPU)	0/5	0/5	0/5	0/5	0/5
XTTS v2 (GPU)	3,5/5	2/5	3,5/5	2/5	2,75/5
CosyVoice (GPU)	0,5/5	1/5	3,5/5	2/5	2/5

Fazit

┌─────────────────────────────────────────────────────────────────┐
│              GESAMTERGEBNIS — DEUTSCHES VOICE CLONING           │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   Modell              Gesamt   Nutzbar für Deutsch?            │
│   ─────────────────────────────────────────────────────         │
│   F5-TTS              2,5/5    ⚠️ Prototypen (roboterhaft)      │
│   GPT-SoVITS          0/5      ❌ Nur Rauschen                  │
│   XTTS v2             2,75/5   ⚠️ Bestes Ergebnis, aber         │
│                                  quengelig und instabil         │
│   CosyVoice           2/5      ❌ Kein Deutsch                  │
│                                                                 │
│   ════════════════════════════════════════════════════════     │
│                                                                 │
│   KEIN Modell erreicht Produktionsqualität für Deutsch!        │
│                                                                 │
│   Empfohlene Alternativen:                                     │
│   1. Mehr Trainingsdaten (30+ Min.) + Fine-Tuning            │
│   2. Kommerzielle APIs (ElevenLabs, etc.)                     │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘