Wan 2.1 mit ComfyUI inkl. GPU Support lokal einrichten

ComfyUI ist eine node-basierte Benutzeroberfläche zur Steuerung und Modifikation von KI-Modellen zur Bild- und Videoerstellung. Wan 2.1 ist ein Text-to-Video-Modell (T2V), das speziell für die Generierung von Videos auf Basis von Texteingaben entwickelt wurde.

Diese Anleitung beschreibt Schritt für Schritt, wie ComfyUI mit Wan 2.1 lokal eingerichtet wird. Jeder Abschnitt erklärt die benötigten Komponenten, warum sie notwendig sind und wie sie korrekt installiert werden. Diese Anleitung setzt Python 10 und eine GPU mit CUDA-Support voraus.

Table of Contents

Voraussetzungen: Python und CUDA

Python 10 installieren

Wan 2.1 erfordert Python 10. Falls es noch nicht installiert ist, kann es von der offiziellen Python-Website heruntergeladen und installiert werden.

CUDA für GPU-Beschleunigung

CUDA ist eine NVIDIA-Technologie, die Berechnungen auf der GPU ausführt und für die Nutzung von PyTorch mit GPU-Beschleunigung erforderlich ist. Die neueste Version kann von der NVIDIA-Website heruntergeladen werden. Stelle sicher, dass deine GPU CUDA-kompatibel ist.

ComfyUI herunterladen und einrichten

ComfyUI wird über Git installiert: git clone https://github.com/comfyanonymous/ComfyUI.git

Danach wechseln wir in das Verzeichnis und installieren die Abhängigkeiten: pip install -r requirements.txt

Installierte Abhängigkeiten:

torch: Die PyTorch-Bibliothek für neuronale Netze.
torchvision: Erweiterungen für PyTorch, insbesondere für Bilder.
torchaudio: Erweiterungen für PyTorch für Audioverarbeitung.
numpy: Wissenschaftliche Berechnungen.
pillow: Bildverarbeitung.
Andere: Notwendig für ComfyUI-Funktionalitäten.

ComfyUI-Manager installieren

ComfyUI-Manager ist ein Plugin, das die Verwaltung von Erweiterungen vereinfacht:
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

Video-Wrapper installieren

Der WanVideoWrapper integriert Wan 2.1 in ComfyUI und ermöglicht die Nutzung der Video-Generierung:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

Fehlende Wrapper Abhängigkeiten installieren: pip install -r requirements.txt

ComfyUI-VideoHelperSuite installieren

Ein alternativer Video-Wrapper, der ebenfalls von ComfyUI for Video-Generierung verwendet wird: https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git

Fehlende Abhängigkeiten installieren: pip install -r requirements.txt

ComfyUI-HunyuanVideoWrapper installieren

git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git

Fehlende Abhängigkeiten installieren: pip install -r requirements.txt

Virtuelle Umgebung für Wan 2.1 erstellen

Es wird empfohlen, eine eigene virtuelle Umgebung für Wan 2.1 zu nutzen:

python -m venv wan21

Anschließend die Umgebung aktivieren:

wan21\Scripts\activate

Anschließend die fehlenden Abhängigkeiten installieren: pip install -r requirements.txt

PyTorch mit CUDA-Support installieren

Erst einmal ermitteln, ob eine pytorch Version mit CUDA Support bereits existiert.

python -c „import torch; print(torch.version); print(torch.version.cuda)“

Falls eine CPU-Version installiert ist, sollte PyTorch zuerst entfernt werden:

pip uninstall torch torchvision torchaudio -y

Anschließend kann PyTorch mit CUDA-Support installiert werden:

pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu126

Überprüfen, ob die GPU verwendet wird:

python -c „import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))“

Modelle für Bild- und Videoerstellung herunterladen

Bildmodelle

Um ComfyUI auch für Bildgenerierung zu nutzen, installieren wir die folgenden Modelle:

DreamShaper: Speziell für künstlerische Bilder.
Realistic Vision V6.0 B1: Hochwertige realistische Bilder.
Stable Diffusion XL (SDXL): Allgemeines leistungsfähiges KI-Modell.

Diese Modelle müssen in C:\tools\ComfyUI\models\checkpoints gespeichert werden.

Die VAE-Datei für SDXL kommt nach C:\tools\ComfyUI\models\vae\.

DreamShaper Modell: https://civitai.com/models/4384/dreamshaper

Realistic Vision V6.0 B1 Modell: https://civitai.com/models/4201/realistic-vision-v60

Stable Diffusion XL (SDXL) Modell:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
VAE:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors

Alle Modelle müssen in den Ordner C:\tools\ComfyUI\models\checkpoints verschoben werden.

Die VAE Datei von Stable Diffusion XL nach

ComfyUI starten und ein erstes Bild generieren

python main.py –cuda-device 0

Video-Modelle für Wan 2.1

Da wir den ComfyUI-WanVideoWrapper nutzen, verwenden wir für die Erstellung von Videos ein Video-Model, welches für den Wrapper trainiert wurde: https://huggingface.co/Kijai/WanVideo_comfy/tree/main

Innerhalb des Wrappers benötigen wir den Ordner „models“. Der Ordner fehlt nach der Installation.

Innerhalb des „models“ Ordners kopieren wir anschließend das Text to Video (T2V) Model:
https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors

„T2V“ steht für Text-to-Video. 14B Parameter sind ein Kompromiss aus Qualität und Rechengeschwindigkeit. fp8 (8-Bit) benötigt weniger VRAM als fp16 oder fp32.

Die VAE Datei kopieren wir nach C:\tools\ComfyUI\models\vae\
https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1_VAE_bf16.safetensors