Zum Inhalt

Audio-Beispiele — Alle Tests im Vergleich

Referenz-Audio

Die Referenzstimme für alle Tests stammt aus einem deutschen Video. Extrahiert mittels Voice Activity Detection (VAD) und in 5-15 Sekunden Segmente geschnitten.

Modell Text Dauer Bewertung
Referenz Originale Stimme aus dem Video ~6 Sek. Baseline

Phase 1: F5-TTS

Erstversuch auf CPU

Modell Text Dauer Gesamt-Bewertung
F5-TTS "Hallo, das ist ein Test" ~3 Sek. 2,5/5

Charakteristik: - Klingt wie "ein Niederländer, der Deutsch versucht" - Roboterhafte Artikulation - Deutsche Härte (Konsonanten) fehlt komplett

Phase 2: GPT-SoVITS

Training-Ergebnis

Modell Text Dauer Gesamt-Bewertung
GPT-SoVITS "Hallo, das ist ein Test" ~3 Sek. 0/5

Charakteristik: - Reines weißes Rauschen - Keine erkennbare Sprache - Training mit nur 3 Min. Daten gescheitert

Phase 3: XTTS v2

Verschiedene Tests

Test Text Dauer Bewertung
Test 1 (Erste Generierung) "Hallo, das ist ein Test" ~3 Sek. 2,5/5
Test 2 (Weniger Satzzeichen) "Hallo das ist ein Test" ~3 Sek. 2,5/5
Test 3 (Schnelleres Tempo) "Hallo, das ist ein Test" ~2,5 Sek. 2,75/5
Test 4 (Langer Text) 3 Sätze zusammen ~13 Sek. 2/5
Test 5 (Kurze Segmente) 3 Sätze einzeln ~18 Sek. 2,875/5

Charakteristik: - Verständlich, aber quengelig/weich - Bei langem Text: Wortsalat ab der Hälfte - Mit Segment-Lösung: Stabil, aber quengelig bleibt

Phase 4: CosyVoice

Zero-Shot Test

Modell Text Dauer Gesamt-Bewertung
CosyVoice-300M "Hallo und herzlich willkommen" ~4 Sek. 2/5

Charakteristik: - Guter Klang (3,5/5) - Aussprache katastrophal (0,5/5) - Fast nichts verständlich — nur einzelne Wörter - Modell hat kein Deutsch gelernt

Vergleichstabelle

Modell Text-Klarheit Stimmen-Ähnlichkeit Sound-Qualität Räumlichkeit Gesamt
F5-TTS (CPU) 3/5 2/5 2,5/5 2/5 2,5/5
GPT-SoVITS (GPU) 0/5 0/5 0/5 0/5 0/5
XTTS v2 (GPU) 3,5/5 2/5 3,5/5 2/5 2,75/5
CosyVoice (GPU) 0,5/5 1/5 3,5/5 2/5 2/5

Fazit

┌─────────────────────────────────────────────────────────────────┐
│              GESAMTERGEBNIS — DEUTSCHES VOICE CLONING           │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   Modell              Gesamt   Nutzbar für Deutsch?            │
│   ─────────────────────────────────────────────────────         │
│   F5-TTS              2,5/5    ⚠️ Prototypen (roboterhaft)      │
│   GPT-SoVITS          0/5      ❌ Nur Rauschen                  │
│   XTTS v2             2,75/5   ⚠️ Bestes Ergebnis, aber         │
│                                  quengelig und instabil         │
│   CosyVoice           2/5      ❌ Kein Deutsch                  │
│                                                                 │
│   ════════════════════════════════════════════════════════     │
│                                                                 │
│   KEIN Modell erreicht Produktionsqualität für Deutsch!        │
│                                                                 │
│   Empfohlene Alternativen:                                     │
│   1. Mehr Trainingsdaten (30+ Min.) + Fine-Tuning            │
│   2. Kommerzielle APIs (ElevenLabs, etc.)                     │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘