Projekt 2 — Voice Cloning mit generativer KI

Zielsetzung

Entwicklung einer vollständig autonomen Pipeline zur Stimmenklonierung aus Video-Material. Die geklonte Stimme soll anschließend für Text-to-Speech (TTS) verwendet werden können.

    VIDEO (mit Sprecher)                    GEKLONTE STIMME
    ┌─────────────────────┐                 ┌─────────────────────┐
    │  ┌───────────────┐  │   EXTRAKTION    │  ┌───────────────┐  │
    │  │   Audio-Track  │──┼─────────────────▶│   Referenz-WAV  │  │
    │  │   (Sprechen)   │  │   VAD + Slice   │  │  (3-10 Sek.)  │  │
    │  └───────────────┘  │                 │  └───────────────┘  │
    └─────────────────────┘                 │         │           │
                                            │         ▼           │
                                            │  ┌───────────────┐  │
                                            │  │  Zero-Shot    │  │
                                            │  │   TTS Modell  │──┼──▶ SYNTHETISCHE SPRACHE
                                            │  │               │  │
                                            │  └───────────────┘  │
                                            └─────────────────────┘

Projektstruktur

Phase	Modell	Status	Ergebnis
Phase 1	F5-TTS (CPU)	✅ Erste Tests	Verständlich, aber "roboterhaft"
Phase 2	GPT-SoVITS v2 (GPU)	❌ Training gescheitert	Nur Rauschen (zu wenig Daten)
Phase 3	XTTS v2 (GPU)	⚠️ Teilerfolg	Verständlich, aber quengelig
Phase 4	CosyVoice v2 (GPU)	⚠️ Teilerfolg	Guter Klang, aber keine deutsche Aussprache

Architektur

┌─────────────────────────────────────────────────────────────────┐
│                        DUAL-VM SETUP                             │
├──────────────────────────┬──────────────────────────────────────┤
│      CPU-VM (Docker)      │         GPU-VM (RTX A6000)          │
│                           │                                      │
│  ┌──────────────────┐    │    ┌──────────────────────────────┐  │
│  │  Hermes Agent     │────┼────│  GPU-Training (CUDA 12.1)    │  │
│  │  (Audio Prep)     │    │    │  RTX A6000 (48 GB VRAM)      │  │
│  └──────────────────┘    │    └──────────────────────────────┘  │
│           │               │                  │                   │
│           ▼               │                  ▼                   │
│  ┌──────────────────┐    │    ┌──────────────────────────────┐  │
│  │  voice_data/      │    │    │  /mnt/storage (500 GB)       │  │
│  │  voice_sync/      │◄───┼────│  Modelle, Training, Output  │  │
│  └──────────────────┘    │    └──────────────────────────────┘  │
└──────────────────────────┴──────────────────────────────────────┘

           Sync via SSH: lecture@10.150.24.23

Hardware-Spezifikationen

Komponente	CPU-VM	GPU-VM
CPU	x86_64	x86_64
RAM	8 GB	32 GB
GPU	—	NVIDIA RTX A6000 (48 GB VRAM)
Disk	29 GB (System)	29 GB (System) + 500 GB (/mnt/storage)
OS	Ubuntu 22.04	Ubuntu 22.04

Zentrale Erkenntnis

Kritische Einsicht

Kein Open-Source-Modell macht out-of-the-box hochwertiges deutsches Voice-Cloning. Die verfügbaren Modelle sind primär auf Englisch und Chinesisch trainiert. Für echte Qualität braucht man entweder:

30+ Minuten deutsche Trainingsdaten + Fine-Tuning
Kommerzielle APIs (z.B. ElevenLabs)

Schnellnavigation

Phase 1: F5-TTS Erstversuch — Erste Experimente auf CPU
Phase 2: GPT-SoVITS Training — Vollständiges Training auf GPU
Phase 3: XTTS v2 Tests — Zero-Shot Versuche
Phase 4: CosyVoice Tests — Chinesisches Modell testen
Audio-Beispiele — Alle getesteten Samples mit Bewertungen
Technische Details — Installationsanleitungen & Konfigurationen