Configurar localmente Wan 2.1 con ComfyUI con soporte GPU

ComfyUI es una interfaz gráfica basada en nodos para controlar y modificar modelos de IA para la generación de imágenes y vídeos. Wan 2.1 es un modelo de texto a vídeo (T2V) desarrollado específicamente para la generación de vídeos a partir de entradas de texto.

Esta guía describe paso a paso cómo configurar ComfyUI con Wan 2.1 de forma local. Cada sección explica los componentes necesarios, por qué son necesarios y cómo instalarlos correctamente. Esta guía requiere Python 10 y una GPU con soporte CUDA.

Requisitos: Python y CUDA

Instalar Python 10

Wan 2.1 requiere Python 10. Si aún no está instalado, puede descargarse e instalarse desde la página oficial de Python.

CUDA para aceleración por GPU

CUDA es una tecnología de NVIDIA que ejecuta cálculos en la GPU y es necesaria para usar PyTorch con aceleración por GPU. La versión más reciente puede descargarse desde la página de NVIDIA. Asegúrate de que tu GPU sea compatible con CUDA.

Descargar y configurar ComfyUI

Clona el repositorio de ComfyUI: git clone https://github.com/comfyanonymous/ComfyUI.git

Luego entramos en el directorio e instalamos las dependencias: pip install -r requirements.txt

Dependencias instaladas:

torch: La biblioteca PyTorch para redes neuronales.
torchvision: Extensiones de PyTorch, especialmente para imágenes.
torchaudio: Extensiones de PyTorch para procesamiento de audio.
numpy: Cálculos científicos.
pillow: Procesamiento de imágenes.
Otros: Necesarios para funcionalidades de ComfyUI.

Instalar ComfyUI-Manager

ComfyUI-Manager es un complemento que simplifica la gestión de extensiones:
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

Instalar Video-Wrapper

WanVideoWrapper integra Wan 2.1 en ComfyUI y permite el uso de la generación de vídeo:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

Instalar dependencias faltantes del wrapper: pip install -r requirements.txt

Instalar ComfyUI-VideoHelperSuite

Un wrapper de vídeo alternativo que también se utiliza en ComfyUI para generación de vídeo: https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git

Instalar dependencias faltantes: pip install -r requirements.txt

Instalar ComfyUI-HunyuanVideoWrapper

git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git

Instalar dependencias faltantes: pip install -r requirements.txt

Crear entorno virtual para Wan 2.1

Se recomienda usar un entorno virtual separado para Wan 2.1:

python -m venv wan21

A continuación, activar el entorno:

wan21\Scripts\activate

Después instalar las dependencias faltantes: pip install -r requirements.txt

Instalar PyTorch con soporte CUDA

Primero comprobar si ya existe una versión de PyTorch con soporte CUDA:

python -c “import torch; print(torch.version); print(torch.version.cuda)”

Si hay una versión para CPU instalada, hay que desinstalar PyTorch primero:

pip uninstall torch torchvision torchaudio -y

Luego se puede instalar PyTorch con soporte CUDA:

pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu126

Verificar si se está usando la GPU:

python -c “import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))”

Descargar modelos para generación de imágenes y vídeos

Modelos de imagen

Para usar ComfyUI también en la generación de imágenes, instalamos los siguientes modelos:

DreamShaper: Especial para imágenes artísticas.
Realistic Vision V6.0 B1: Imágenes realistas de alta calidad.
Stable Diffusion XL (SDXL): Modelo de IA potente de uso general.

Estos modelos deben guardarse en C:\tools\ComfyUI\models\checkpoints.
El archivo VAE para SDXL va en C:\tools\ComfyUI\models\vae\.

DreamShaper Modelo: https://civitai.com/models/4384/dreamshaper

Realistic Vision V6.0 B1 Modelo: https://civitai.com/models/4201/realistic-vision-v60

Stable Diffusion XL (SDXL) Modelo:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
VAE:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors

Todos los modelos deben moverse a la carpeta C:\tools\ComfyUI\models\checkpoints.

El archivo VAE de Stable Diffusion XL va a

Iniciar ComfyUI y generar una primera imagen

python main.py –cuda-device 0

Modelos de vídeo para Wan 2.1

Como usamos ComfyUI-WanVideoWrapper, utilizamos para la creación de vídeos un modelo de vídeo entrenado para el wrapper: https://huggingface.co/Kijai/WanVideo_comfy/tree/main

Dentro del wrapper necesitamos la carpeta “models”. Esa carpeta falta tras la instalación.

Dentro de la carpeta “models” copiamos luego el modelo de texto a vídeo (T2V):
https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors

“T2V” significa texto a vídeo. 14B parámetros son un compromiso entre calidad y velocidad de cómputo. fp8 (8 bits) necesita menos VRAM que fp16 o fp32.

El archivo VAE lo copiamos a C:\tools\ComfyUI\models\vae\
https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1_VAE_bf16.safetensors