Tutorial de ComfyUI

La inteligencia artificial ha adquirido la capacidad de crear imágenes detalladas y complejas a partir de meras descripciones de texto. La base tecnológica de esto son modelos de IA profundos que actúan como motores digitales para la generación de imágenes. Traducen conceptos escritos en datos visuales y generan, sobre esa base, gráficos completamente nuevos. Para controlar con precisión la generación de imágenes, los usuarios necesitan una interfaz adecuada. Ahí es donde entra en juego ComfyUI. ComfyUI es una interfaz gráfica flexible y potente, diseñada para trabajar con una amplia variedad de modelos de IA. A diferencia de otros programas que ocultan sus procesos tras menús simples, ComfyUI apuesta por un enfoque modular con nodos. Cada paso de la generación de imágenes, desde la elección del modelo hasta la imagen final, se representa como un bloque individual. El usuario conecta visualmente estos bloques y construye así todo el flujo de trabajo. Este método ofrece transparencia y control sobre todo el proceso de generación y permite a los usuarios gobernar el funcionamiento de la IA subyacente hasta el más mínimo detalle. ...

15 de mayo de 2025 · Aaron

Análisis de documentos no estructurados con "Unstructured"

En el marco de esta prueba se utiliza el framework de código abierto unstructured para evaluar el proceso de extracción de texto de documentos estructurados. El objetivo es comprobar en qué medida unstructured es adecuado para su uso práctico en sistemas de información basados en IA – especialmente con vista a la extracción de texto, el procesamiento semántico (chunking/tokenización) y la posterior generación de embeddings para sistemas de recuperación basados en vectores. ...

14 de mayo de 2025 · Aaron

Lista de compras digital con React & Supabase

He iniciado este proyecto para aprender React de forma práctica – y no solo seguir tutoriales. Quería implementar un escenario de frontend realista que incluyera requisitos típicos como autenticación de usuarios, gestión de datos, interacciones de usuario y componentes de IU dinámicos. En lugar de crear un backend propio, decidí deliberadamente usar Supabase – una plataforma Backend-as-a-Service que resulta ideal para fines de aprendizaje y prototipado. Así pude concentrarme por completo en el ecosistema de React, incluyendo el enrutamiento, el estado, la estructura de componentes y la interfaz responsiva. ...

5 de mayo de 2025 · Aaron

Evaluación emocional de música con MindsDB y GPT-4 basada en datos de Spotify

MindsDB es una plataforma de código abierto desarrollada para permitir el aprendizaje automático, el análisis de series temporales y la integración de grandes modelos de lenguaje directamente en los flujos de trabajo tradicionales de bases de datos. La plataforma permite poner la funcionalidad de IA al alcance mediante consultas SQL sencillas, sin que sea necesaria una infraestructura de machine learning por separado. En esta entrada se presenta una de las múltiples funciones de MindsDB: la invocación de un gran modelo de lenguaje (GPT-4) a través de una plantilla predefinida que se rellena dinámicamente con valores de la base de datos. El objetivo es evaluar automáticamente la carga emocional de canciones de un conjunto de datos de Spotify existente. Para ello, se utiliza únicamente una parte del conjunto de funcionalidades de MindsDB, con el fin de conocer el funcionamiento básico y la interacción entre la base de datos y el LLM. ...

29 de abril de 2025 · Aaron

Animación facial en tiempo real para Metahumans con Live Link Face en Unreal Engine 5

La transmisión de expresiones faciales en tiempo real a personajes digitales es un componente importante de los procesos modernos de animación y visualización. Con la aplicación Live Link Face de Epic Games y Unreal Engine 5, es posible transferir con precisión los movimientos faciales de una persona real a un personaje digital de Metahuman. Para ello se necesita un iPhone con cámara TrueDepth integrada, conectado a través de la red local al equipo donde se ejecuta Unreal Engine. En este tutorial se muestra cómo configurar la aplicación Live Link Face y conectarla con el motor, cómo preparar correctamente el Metahuman y cómo finalmente transmitir los datos faciales en vivo. El objetivo es establecer una conexión en tiempo real funcional, en la que el Metahuman se mueva de forma sincronizada con la mímica de la persona real. ...

20 de abril de 2025 · Aaron

Omniverse: Tutorial de Audio2Face

Audio2Face es una herramienta impulsada por IA dentro de NVIDIA Omniverse, diseñada específicamente para generar animaciones faciales realistas basadas únicamente en audio. Forma parte de la plataforma Omniverse, que ofrece un entorno de colaboración y simulación en tiempo real para flujos de trabajo en 3D. Audio2Face utiliza una red neuronal para convertir automáticamente el habla en expresiones faciales y movimientos vívidos. Normalmente se emplea Audio2Face para hacer hablar a personajes en juegos, películas o avatares digitales sin necesidad de animaciones de fotogramas clave complejas. Los movimientos generados pueden usarse directamente o transferirse a tus propios personajes 3D, lo que resulta especialmente interesante para producciones virtuales, gemelos digitales o aplicaciones interactivas. ...

12 de abril de 2025 · Aaron

Agente de eventos asistido por IA para eventos

En este proyecto he desarrollado un agente de IA, que analiza automáticamente eventos de la región NRW y los filtra según criterios personales. El objetivo era filtrar, de entre una gran cantidad de eventos, solo aquellos que realmente son relevantes – basado en un prompt definido individualmente. Esta imagen muestra la lista de más de 350 eventos que tienen lugar en un solo día en Düsseldorf. En todo NRW son varios miles de eventos en un día. ...

11 de abril de 2025 · Aaron

Los LLMs no son una panacea: prueba práctica de clasificación musical basada en metadatos

La cuestión era si los modelos de lenguaje de gran tamaño (LLMs) actuales como GPT-4 o DeepSeek eran capaces de clasificar automáticamente y de forma fiable piezas musicales – específicamente canciones de salsa – en “Salsa Cubana” o “Salsa Línea” basándose en el título, el artista, la letra y los metadatos. Se sabía que la información disponible (metadatos, etiquetas de género, letras) era incompleta y en parte inconsistente. La prueba tenía como objetivo explícito determinar los límites prácticos de los LLM actuales en este contexto. ...

3 de abril de 2025 · Aaron

Tutorial de Omniverse

¿Qué es Omniverse? Omniverse es una plataforma de NVIDIA con la que se pueden crear, conectar y simular mundos 3D virtuales – y todo en tiempo real. Omniverse es una plataforma abierta para desarrolladores, diseñadores, ingenieros, investigadores y creativos, para: Conectar aplicaciones 3D entre sí (p. ej. Blender, Maya, Unreal Engine) Colaborar en una única escena – en vivo y de forma simultánea. Crear simulaciones físicamente realistas y aplicaciones impulsadas por IA. ¿Para qué se utiliza Omniverse? Diseño, visualización y simulación de objetos como, por ejemplo, vehículos en tiempo real. Gemelos digitales de fábricas para optimizar procesos. Creación de assets y simulaciones visuales. Entrenamiento con datos sintéticos, p. ej. para vehículos autónomos. Colaboración en tiempo real al animar y renderizar. ¿Qué es USD? Omniverse se basa en el formato OpenUSD (Universal Scene Description) de Pixar – un formato de archivo que puede describir escenas 3D complejas. ...

27 de marzo de 2025 · Aaron

Configurar localmente Wan 2.1 con ComfyUI con soporte GPU

ComfyUI es una interfaz gráfica basada en nodos para controlar y modificar modelos de IA para la generación de imágenes y vídeos. Wan 2.1 es un modelo de texto a vídeo (T2V) desarrollado específicamente para la generación de vídeos a partir de entradas de texto. Esta guía describe paso a paso cómo configurar ComfyUI con Wan 2.1 de forma local. Cada sección explica los componentes necesarios, por qué son necesarios y cómo instalarlos correctamente. Esta guía requiere Python 10 y una GPU con soporte CUDA. ...

1 de marzo de 2025 · Aaron