Phase 1 — F5-TTS Erstversuch

Überblick

Modell: F5-TTS ("Less is More")
Ansatz: Zero-Shot Voice Cloning auf CPU
Datum: Erste Tests in einer früheren Session

Warum F5-TTS?

F5-TTS war das erste Modell, das wir getestet haben, da es: - Auf der CPU-VM laufen kann (keine GPU nötig) - "Less is More"-Philosophie: weniger Postprocessing = besseres Ergebnis - Einfach zu bedienen ist

Architektur

┌─────────────────────────────────────────────────────────────┐
│                    F5-TTS PIPELINE                           │
│                                                              │
│   REFERENZ-AUDIO          TEXT                  OUTPUT        │
│   ┌──────────────┐   ┌──────────────┐    ┌──────────────┐  │
│   │  3-10 Sek.   │   │  "Hallo..."  │───▶│  WAV-Datei   │  │
│   │  Sprechprobe  │   │              │    │  24 kHz      │  │
│   └──────────────┘   └──────────────┘    └──────────────┘  │
│                                                              │
│   Vorteile:                                                  │
│   ✅ Keine GPU nötig                                         │
│   ✅ Einfache Bedienung                                      │
│   ❌ Klingt "roboterhaft" / wie Niederländer                 │
└─────────────────────────────────────────────────────────────┘

Erste Ergebnisse

Die ersten Tests mit F5-TTS ergaben folgende Charakteristiken:

Positiv

✅ Verständlichkeit: Der generierte Text war verständlich
✅ Konsistenz: Keine plötzlichen Qualitätseinbrüche
✅ Einfachheit: Keine komplexe Konfiguration nötig

Negativ

❌ Stimmenqualität: Klang wie "ein Niederländer, der Deutsch versucht"
❌ Roboterhaft: Deutlich künstlich, nicht natürlich
❌ Fehlende Härte: Deutsche Konsonanten zu weich

Wichtige Erkenntnis

Less is More

F5-TTS zeigte: Postprocessing und Parameter-Tweaks verschlechtern das Ergebnis. Pure Defaults + Voice Activity Detection (VAD) war die beste Strategie. Jedes Experimentieren mit zusätzlichen Filtern oder Pitch-Shifting machte das Ergebnis nur schlechter.

Bewertung

Kriterium	Bewertung	Kommentar
Text-Klarheit	3/5	Verständlich, aber nicht perfekt
Stimmen-Ähnlichkeit	2/5	Kaum erkennbar
Sound-Qualität	2,5/5	OK für Prototypen
Räumlichkeit	2/5	Flach, kein Raumgefühl
Gesamt	2,5/5	Proof-of-Concept, keine Produktionsqualität

Fazit

F5-TTS war ein guter Proof-of-Concept, der zeigte, dass das grundsätzliche Prinzip funktioniert. Allerdings reichte die Qualität nicht für ernsthafte Anwendungen. Die Erkenntnis, dass weniger Postprocessing besser ist, war wertvoll für alle weiteren Experimente.

Nächster Schritt: Phase 2: GPT-SoVITS Training