Zum Inhalt springen

Wan 2.1 mit ComfyUI inkl. GPU Support lokal einrichten

    ComfyUI ist eine node-basierte Benutzeroberfläche zur Steuerung und Modifikation von KI-Modellen zur Bild- und Videoerstellung. Wan 2.1 ist ein Text-to-Video-Modell (T2V), das speziell für die Generierung von Videos auf Basis von Texteingaben entwickelt wurde.

    Diese Anleitung beschreibt Schritt für Schritt, wie ComfyUI mit Wan 2.1 lokal eingerichtet wird. Jeder Abschnitt erklärt die benötigten Komponenten, warum sie notwendig sind und wie sie korrekt installiert werden. Diese Anleitung setzt Python 10 und eine GPU mit CUDA-Support voraus.

    Voraussetzungen: Python und CUDA

    Python 10 installieren

    Wan 2.1 erfordert Python 10. Falls es noch nicht installiert ist, kann es von der offiziellen Python-Website heruntergeladen und installiert werden.

    CUDA für GPU-Beschleunigung

    CUDA ist eine NVIDIA-Technologie, die Berechnungen auf der GPU ausführt und für die Nutzung von PyTorch mit GPU-Beschleunigung erforderlich ist. Die neueste Version kann von der NVIDIA-Website heruntergeladen werden. Stelle sicher, dass deine GPU CUDA-kompatibel ist.

    ComfyUI herunterladen und einrichten

    ComfyUI wird über Git installiert: git clone https://github.com/comfyanonymous/ComfyUI.git

    Danach wechseln wir in das Verzeichnis und installieren die Abhängigkeiten: pip install -r requirements.txt

    Installierte Abhängigkeiten:

    • torch: Die PyTorch-Bibliothek für neuronale Netze.
    • torchvision: Erweiterungen für PyTorch, insbesondere für Bilder.
    • torchaudio: Erweiterungen für PyTorch für Audioverarbeitung.
    • numpy: Wissenschaftliche Berechnungen.
    • pillow: Bildverarbeitung.
    • Andere: Notwendig für ComfyUI-Funktionalitäten.

    ComfyUI-Manager installieren

    ComfyUI-Manager ist ein Plugin, das die Verwaltung von Erweiterungen vereinfacht:
    git clone https://github.com/ltdrdata/ComfyUI-Manager.git

    Video-Wrapper installieren

    Der WanVideoWrapper integriert Wan 2.1 in ComfyUI und ermöglicht die Nutzung der Video-Generierung:
    git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

    Fehlende Wrapper Abhängigkeiten installieren: pip install -r requirements.txt

    ComfyUI-VideoHelperSuite installieren

    Ein alternativer Video-Wrapper, der ebenfalls von ComfyUI for Video-Generierung verwendet wird: https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git

    Fehlende Abhängigkeiten installieren: pip install -r requirements.txt

    ComfyUI-HunyuanVideoWrapper installieren

    git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git

    Fehlende Abhängigkeiten installieren: pip install -r requirements.txt

    Virtuelle Umgebung für Wan 2.1 erstellen

    Es wird empfohlen, eine eigene virtuelle Umgebung für Wan 2.1 zu nutzen:

    python -m venv wan21

    Anschließend die Umgebung aktivieren:

    wan21\Scripts\activate

    Anschließend die fehlenden Abhängigkeiten installieren: pip install -r requirements.txt

    PyTorch mit CUDA-Support installieren

    Erst einmal ermitteln, ob eine pytorch Version mit CUDA Support bereits existiert.

    python -c „import torch; print(torch.version); print(torch.version.cuda)“

    Falls eine CPU-Version installiert ist, sollte PyTorch zuerst entfernt werden:

    pip uninstall torch torchvision torchaudio -y

    Anschließend kann PyTorch mit CUDA-Support installiert werden:

    pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu126

    Überprüfen, ob die GPU verwendet wird:

    python -c „import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))“

    Modelle für Bild- und Videoerstellung herunterladen

    Bildmodelle

    Um ComfyUI auch für Bildgenerierung zu nutzen, installieren wir die folgenden Modelle:

    • DreamShaper: Speziell für künstlerische Bilder.
    • Realistic Vision V6.0 B1: Hochwertige realistische Bilder.
    • Stable Diffusion XL (SDXL): Allgemeines leistungsfähiges KI-Modell.

    Diese Modelle müssen in C:\tools\ComfyUI\models\checkpoints gespeichert werden.

    Die VAE-Datei für SDXL kommt nach C:\tools\ComfyUI\models\vae\.


    DreamShaper Modell: https://civitai.com/models/4384/dreamshaper

    Realistic Vision V6.0 B1 Modell: https://civitai.com/models/4201/realistic-vision-v60

    Stable Diffusion XL (SDXL) Modell:
    https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
    VAE:
    https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors

    Alle Modelle müssen in den Ordner C:\tools\ComfyUI\models\checkpoints verschoben werden.

    Die VAE Datei von Stable Diffusion XL nach

    ComfyUI starten und ein erstes Bild generieren

    python main.py –cuda-device 0

    Video-Modelle für Wan 2.1

    Da wir den ComfyUI-WanVideoWrapper nutzen, verwenden wir für die Erstellung von Videos ein Video-Model, welches für den Wrapper trainiert wurde: https://huggingface.co/Kijai/WanVideo_comfy/tree/main

    Innerhalb des Wrappers benötigen wir den Ordner „models“. Der Ordner fehlt nach der Installation.

    Innerhalb des „models“ Ordners kopieren wir anschließend das Text to Video (T2V) Model:
    https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors

    „T2V“ steht für Text-to-Video. 14B Parameter sind ein Kompromiss aus Qualität und Rechengeschwindigkeit. fp8 (8-Bit) benötigt weniger VRAM als fp16 oder fp32.

    Die VAE Datei kopieren wir nach C:\tools\ComfyUI\models\vae\
    https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1_VAE_bf16.safetensors

    Das Diffusion-Model wird nach C:\tools\ComfyUI\models\diffusion_models\ kopiert
    https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_bf16.safetensors

    Als Text Encoder verwenden wir: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-fp8_e4m3fn.safetensors

    Diese Datei kopieren wir nach „C:\tools\ComfyUI\models\text_encoders\“.

    Workflow für Wan 2.1 einrichten

    Um das neue Wan 2.1 Modell unter ComfyUI nutzen zu können, benötigen wir anschließend den passenden Workflow: https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_T2V_example_01.json

    Den JSON-Inhalt kopieren und in ComfyUI als neuen Workflow einfügen.

    ComfyUI starten und testen

    Anschließend kann ComfyUI gestartet werden:
    python main.py –cuda-device 0