Zum Inhalt

Projekt 2 — Voice Cloning mit generativer KI

Zielsetzung

Entwicklung einer vollständig autonomen Pipeline zur Stimmenklonierung aus Video-Material. Die geklonte Stimme soll anschließend für Text-to-Speech (TTS) verwendet werden können.

    VIDEO (mit Sprecher)                    GEKLONTE STIMME
    ┌─────────────────────┐                 ┌─────────────────────┐
    │  ┌───────────────┐  │   EXTRAKTION    │  ┌───────────────┐  │
    │  │   Audio-Track  │──┼─────────────────▶│   Referenz-WAV  │  │
    │  │   (Sprechen)   │  │   VAD + Slice   │  │  (3-10 Sek.)  │  │
    │  └───────────────┘  │                 │  └───────────────┘  │
    └─────────────────────┘                 │         │           │
                                            │         ▼           │
                                            │  ┌───────────────┐  │
                                            │  │  Zero-Shot    │  │
                                            │  │   TTS Modell  │──┼──▶ SYNTHETISCHE SPRACHE
                                            │  │               │  │
                                            │  └───────────────┘  │
                                            └─────────────────────┘

Projektstruktur

Phase Modell Status Ergebnis
Phase 1 F5-TTS (CPU) ✅ Erste Tests Verständlich, aber "roboterhaft"
Phase 2 GPT-SoVITS v2 (GPU) ❌ Training gescheitert Nur Rauschen (zu wenig Daten)
Phase 3 XTTS v2 (GPU) ⚠️ Teilerfolg Verständlich, aber quengelig
Phase 4 CosyVoice v2 (GPU) ⚠️ Teilerfolg Guter Klang, aber keine deutsche Aussprache

Architektur

┌─────────────────────────────────────────────────────────────────┐
│                        DUAL-VM SETUP                             │
├──────────────────────────┬──────────────────────────────────────┤
│      CPU-VM (Docker)      │         GPU-VM (RTX A6000)          │
│                           │                                      │
│  ┌──────────────────┐    │    ┌──────────────────────────────┐  │
│  │  Hermes Agent     │────┼────│  GPU-Training (CUDA 12.1)    │  │
│  │  (Audio Prep)     │    │    │  RTX A6000 (48 GB VRAM)      │  │
│  └──────────────────┘    │    └──────────────────────────────┘  │
│           │               │                  │                   │
│           ▼               │                  ▼                   │
│  ┌──────────────────┐    │    ┌──────────────────────────────┐  │
│  │  voice_data/      │    │    │  /mnt/storage (500 GB)       │  │
│  │  voice_sync/      │◄───┼────│  Modelle, Training, Output  │  │
│  └──────────────────┘    │    └──────────────────────────────┘  │
└──────────────────────────┴──────────────────────────────────────┘

           Sync via SSH: lecture@10.150.24.23

Hardware-Spezifikationen

Komponente CPU-VM GPU-VM
CPU x86_64 x86_64
RAM 8 GB 32 GB
GPU NVIDIA RTX A6000 (48 GB VRAM)
Disk 29 GB (System) 29 GB (System) + 500 GB (/mnt/storage)
OS Ubuntu 22.04 Ubuntu 22.04

Zentrale Erkenntnis

Kritische Einsicht

Kein Open-Source-Modell macht out-of-the-box hochwertiges deutsches Voice-Cloning. Die verfügbaren Modelle sind primär auf Englisch und Chinesisch trainiert. Für echte Qualität braucht man entweder:

  1. 30+ Minuten deutsche Trainingsdaten + Fine-Tuning
  2. Kommerzielle APIs (z.B. ElevenLabs)

Schnellnavigation