Zum Inhalt

Dokumentation — Projekt 2 (Voice Cloning)

Architektur

Dieses Projekt untersucht verschiedene Ansätze für Voice Cloning mit generativer KI, speziell für die deutsche Sprache.

┌─────────────────────────────────────────────────────────────────┐
│                    VOICE CLONING PIPELINE                       │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  1. DATENVORBEREITUNG                                           │
│  ┌──────────────┐    VAD + Slice    ┌──────────────┐           │
│  │  Video (MP4) │ ─────────────────▶│  WAV-Segmente│           │
│  │  mit Sprecher│    5-15 Sek.     │  (3-10 Sek.) │           │
│  └──────────────┘                  └──────────────┘           │
│                                                                  │
│  2. ZERO-SHOT TTS                                                 │
│  ┌──────────────┐    Referenz +   ┌──────────────┐           │
│  │  Segmente    │ ── Text ────────▶│  Synthetische│           │
│  │  (Stimme)    │                  │  Sprache     │           │
│  └──────────────┘                  └──────────────┘           │
│                                                                  │
│  3. BEWERTUNG                                                   │
│  ┌──────────────┐                                             │
│  │  Text-Klarheit│  Stimmen-Ähnlichkeit  Sound-Qualität      │
│  │  Räumlichkeit│                                             │
│  └──────────────┘                                             │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

Test-Strategie

Dimensions-Bewertung

Alle Tests werden nach vier Kriterien bewertet (je 1-5 Sterne):

Kriterium Beschreibung Gewichtung
Text-Klarheit Wie gut ist der Text verständlich? Hoch
Stimmen-Ähnlichkeit Klingt es wie die Original-Stimme? Hoch
Sound-Qualität Klangqualität ohne Artefakte? Mittel
Räumlichkeit Natürlicher Raumklang/Stereo? Mittel

Test-Texts

Standard-Test (für alle Modelle):
"Hallo, das ist ein Test. Wie klingt diese Stimme?"

Langer Text (Drift-Test):
"Hallo und herzlich willkommen. Dies ist ein Test der deutschen 
Sprachausgabe. Ich hoffe es klingt natürlich und klar."

Ergebnis-Zusammenfassung

Phase Modell Hardware Gesamt Status
Phase 1 F5-TTS CPU (Docker) 2,5/5 ✅ Erste Erkenntnisse
Phase 2 GPT-SoVITS v2 GPU (RTX A6000) 0/5 ❌ Training gescheitert
Phase 3 XTTS v2 GPU (RTX A6000) 2,75/5 ⚠️ Bestes Ergebnis
Phase 4 CosyVoice v2 GPU (RTX A6000) 2/5 ⚠️ Guter Klang, kein Deutsch

Zentrale Erkenntnis

Kritische Einsicht

Kein Open-Source-Modell erreicht Produktionsqualität für deutsches Voice-Cloning.

Die verfügbaren Modelle (XTTS v2, CosyVoice, GPT-SoVITS) sind primär auf Englisch und Chinesisch trainiert. Deutsch wird toleriert, aber nicht meistert.

Lösungsansätze: 1. Mehr Trainingsdaten: 30+ Minuten deutsche Audio + Fine-Tuning 2. Kommerzielle APIs: ElevenLabs, Play.ht (kostenpflichtig) 3. Hybrid-Ansatz: Mehrere Modelle kombinieren

Ressourcen

Verwendete Modelle

Modell URL Lizenz
F5-TTS https://github.com/SWivid/F5-TTS MIT
GPT-SoVITS v2 https://github.com/RVC-Boss/GPT-SoVITS MIT
XTTS v2 https://github.com/coqui-ai/TTS CPML
CosyVoice v2 https://github.com/FunAudioLLM/CosyVoice Apache 2.0

Tools

Tool Verwendung
FFmpeg Audio-Extraktion, Format-Konvertierung
PyAnnote Voice Activity Detection (VAD)
Whisper ASR (Automatic Speech Recognition)
ModelScope Chinesischer Model-Hub
tmux Persistente Terminal-Sessions

Hardware-Anforderungen

Komponente Minimum Empfohlen
GPU NVIDIA RTX A6000 (48 GB)
RAM 8 GB 32 GB
Storage 50 GB 500 GB (SSD)
CUDA 12.1+