Phase 1 — F5-TTS Erstversuch
Überblick
Modell: F5-TTS ("Less is More")
Ansatz: Zero-Shot Voice Cloning auf CPU
Datum: Erste Tests in einer früheren Session
Warum F5-TTS?
F5-TTS war das erste Modell, das wir getestet haben, da es: - Auf der CPU-VM laufen kann (keine GPU nötig) - "Less is More"-Philosophie: weniger Postprocessing = besseres Ergebnis - Einfach zu bedienen ist
Architektur
┌─────────────────────────────────────────────────────────────┐
│ F5-TTS PIPELINE │
│ │
│ REFERENZ-AUDIO TEXT OUTPUT │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 3-10 Sek. │ │ "Hallo..." │───▶│ WAV-Datei │ │
│ │ Sprechprobe │ │ │ │ 24 kHz │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ Vorteile: │
│ ✅ Keine GPU nötig │
│ ✅ Einfache Bedienung │
│ ❌ Klingt "roboterhaft" / wie Niederländer │
└─────────────────────────────────────────────────────────────┘
Erste Ergebnisse
Die ersten Tests mit F5-TTS ergaben folgende Charakteristiken:
Positiv
- ✅ Verständlichkeit: Der generierte Text war verständlich
- ✅ Konsistenz: Keine plötzlichen Qualitätseinbrüche
- ✅ Einfachheit: Keine komplexe Konfiguration nötig
Negativ
- ❌ Stimmenqualität: Klang wie "ein Niederländer, der Deutsch versucht"
- ❌ Roboterhaft: Deutlich künstlich, nicht natürlich
- ❌ Fehlende Härte: Deutsche Konsonanten zu weich
Wichtige Erkenntnis
Less is More
F5-TTS zeigte: Postprocessing und Parameter-Tweaks verschlechtern das Ergebnis. Pure Defaults + Voice Activity Detection (VAD) war die beste Strategie. Jedes Experimentieren mit zusätzlichen Filtern oder Pitch-Shifting machte das Ergebnis nur schlechter.
Bewertung
| Kriterium | Bewertung | Kommentar |
|---|---|---|
| Text-Klarheit | 3/5 | Verständlich, aber nicht perfekt |
| Stimmen-Ähnlichkeit | 2/5 | Kaum erkennbar |
| Sound-Qualität | 2,5/5 | OK für Prototypen |
| Räumlichkeit | 2/5 | Flach, kein Raumgefühl |
| Gesamt | 2,5/5 | Proof-of-Concept, keine Produktionsqualität |
Fazit
F5-TTS war ein guter Proof-of-Concept, der zeigte, dass das grundsätzliche Prinzip funktioniert. Allerdings reichte die Qualität nicht für ernsthafte Anwendungen. Die Erkenntnis, dass weniger Postprocessing besser ist, war wertvoll für alle weiteren Experimente.
Nächster Schritt: Phase 2: GPT-SoVITS Training