ComfyUI Tutorial

Die künstliche Intelligenz hat die Fähigkeit erlangt, aus reinen Textbeschreibungen detailreiche und komplexe Bilder zu erschaffen. Die technologische Grundlage hierfür bilden tiefgreifende KI Modelle, die als digitale Motoren für die Bilderzeugung fungieren. Sie übersetzen geschriebene Konzepte in visuelle Daten und generieren auf dieser Basis völlig neue Grafiken. Um die Bilderzeugung präzise zu steuern, benötigen Anwender eine passende Benutzeroberfläche. An dieser Stelle kommt ComfyUI ins Spiel. ComfyUI ist eine flexible und leistungsstarke grafische Oberfläche, die für die Arbeit mit einer Vielzahl von KI Modellen konzipiert wurde. Im Gegensatz zu anderen Programmen, die ihre Prozesse hinter einfachen Menüs verbergen, setzt ComfyUI auf einen modularen Ansatz mit Knoten. Jeder Schritt der Bilderzeugung, von der Modellwahl bis zum fertigen Bild, wird als einzelner Baustein dargestellt. Der Anwender verbindet diese Bausteine visuell miteinander und konstruiert so den gesamten Arbeitsablauf selbst. Diese Methode bietet Transparenz und Kontrolle über den gesamten Generierungsprozess und ermöglicht es Nutzern, die Funktionsweise der zugrundeliegenden KI bis ins kleinste Detail zu steuern. ...

15. Mai 2025 · Aaron

Analyse unstrukturierter Dokumente mit "Unstructured"

Im Rahmen dieses Tests wird das Open-Source-Framework unstructured eingesetzt, um den Extraktionsprozess von Text aus strukturierten Dokumenten zu evaluieren. Ziel ist es, zu prüfen, inwieweit sich unstructured für den praktischen Einsatz in KI-basierten Informationssystemen eignet – insbesondere mit Blick auf die Textextraktion, semantische Aufbereitung (Chunking/Tokenisierung) und anschließende Embedding-Erzeugung für Vektor-basierte Retrieval-Systeme. Hier sieht man ein Beispiel einer PDF-Datei, die für die Analyse mit unstructured verwendet wurde. pm-partnerschaft-stackitHerunterladen Zur Ausführung der unstructured-Bibliothek wird das offizielle Docker-Image verwendet. Dieses enthält alle erforderlichen Abhängigkeiten (z. B. Tesseract, Poppler, Python-Bibliotheken) und ermöglicht eine sofortige Nutzung ohne lokale Python-Installation. ...

14. Mai 2025 · Aaron

Digitale Einkaufsliste mit React & Supabase

Ich habe dieses Projekt gestartet, um React praxisnah zu lernen – und nicht nur Tutorials zu verfolgen. Dabei wollte ich ein realistisches Frontend-Szenario umsetzen, das typische Anforderungen wie Benutzerauthentifizierung, Datenverwaltung, Benutzerinteraktionen und dynamische UI-Komponenten beinhaltet. Anstatt ein eigenes Backend zu bauen, habe ich mich bewusst für Supabase entschieden – eine Backend-as-a-Service-Plattform, die sich ideal für Lern- und Prototyping-Zwecke eignet. Dadurch konnte ich mich voll auf das React-Ökosystem konzentrieren, inklusive Routing, Zustand, Komponentenstruktur und responsiver Oberfläche. ...

5. Mai 2025 · Aaron

Emotionale Musikbewertung mit MindsDB und GPT-4 anhand von Spotify-Daten

MindsDB ist eine Open-Source-Plattform, die entwickelt wurde, um maschinelles Lernen, Zeitreihenanalysen und die Integration großer Sprachmodelle direkt in klassische Datenbank-Workflows zu ermöglichen. Die Plattform erlaubt es, KI-Funktionalität über einfache SQL-Abfragen zugänglich zu machen, ohne dass eine separate Machine-Learning-Infrastruktur notwendig ist. In diesem Beitrag wird eine der zahlreichen Funktionen von MindsDB vorgestellt: der Aufruf eines großen Sprachmodells (GPT-4) über ein vordefiniertes Template, das dynamisch mit Datenbankwerten befüllt wird. Ziel ist es, die emotionale Wirkung von Songs aus einem bestehenden Spotify-Datensatz automatisch bewerten zu lassen. Dabei wird lediglich ein Teil des gesamten Funktionsumfangs von MindsDB genutzt, um die grundlegende Arbeitsweise und das Zusammenspiel von Datenbank und LLM kennenzulernen. ...

29. April 2025 · Aaron

Echtzeit-Gesichtsanimation für Metahumans mit Live Link Face in Unreal Engine 5

Die Übertragung von Gesichtsausdrücken in Echtzeit auf digitale Charaktere ist ein wichtiger Bestandteil moderner Animations- und Visualisierungsprozesse. Mit der Live Link Face App von Epic Games und Unreal Engine 5 lassen sich Gesichtsbewegungen eines realen Menschen präzise auf einen digitalen Metahuman-Charakter übertragen. Voraussetzung dafür ist ein iPhone mit integrierter TrueDepth-Kamera, das über ein lokales Netzwerk mit dem Rechner verbunden wird, auf dem Unreal Engine läuft. In diesem Tutorial wird gezeigt, wie die Live Link Face App eingerichtet und mit der Engine verbunden wird, wie der Metahuman korrekt vorbereitet wird und wie schließlich die Gesichtsdaten live übertragen werden. Ziel ist es, eine funktionierende Echtzeitverbindung herzustellen, bei der sich der Metahuman synchron zur Mimik der realen Person bewegt. ...

20. April 2025 · Aaron

Omniverse: Audio2Face Tutorial

Audio2Face ist ein KI-gestütztes Tool innerhalb von NVIDIA Omniverse, das speziell dafür entwickelt wurde, realistische Gesichtsanimationen allein auf Basis von Audio zu erzeugen. Es gehört zur Omniverse-Plattform, die eine Echtzeit-Kollaborations- und Simulationsumgebung für 3D-Workflows bietet. Audio2Face nutzt ein neuronales Netzwerk, um gesprochene Sprache automatisch in lebendige Mimik und Gesichtsbewegungen umzuwandeln. Typischerweise verwendet man Audio2Face, um Charaktere in Spielen, Filmen oder digitalen Avataren sprechen zu lassen, ohne aufwendige Keyframe-Animationen. Die erzeugten Bewegungen können entweder direkt verwendet oder auf eigene 3D-Charaktere übertragen werden, was besonders für virtuelle Produktionen, digitale Zwillinge oder interaktive Anwendungen interessant ist. ...

12. April 2025 · Aaron

KI-gestützter Event-Agent für Veranstaltungen

In diesem Projekt habe ich einen KI-Agenten entwickelt, der automatisch Veranstaltungen aus dem Raum NRW analysiert und nach persönlichen Kriterien filtert. Ziel war es, aus einer großen Menge Events nur diejenigen herauszufiltern, die wirklich relevant sind – basierend auf einem individuell definierten Prompt. Dieses Bild zeigt die Liste von über 350 Events, die an einem einzigen Tag in Düsseldorf stattfinden. In ganz NRW sind es an einem Tag mehrere tausend Veranstaltungen. ...

11. April 2025 · Aaron

LLMs sind kein Allheilmittel: Praxistest zur Musik-Klassifikation anhand von Metadaten

Die Fragestellung war, ob aktuelle Large Language Models (LLMs) wie GPT-4 oder DeepSeek in der Lage sind, Musikstücke – speziell Salsa-Songs – anhand von Titel, Künstler, Songtext und Metadaten automatisch und zuverlässig in „Salsa Cubana“ oder „Salsa Línea“ zu klassifizieren. Es war bekannt, dass die Informationslage (Metadaten, Genre-Tags, Lyrics) lückenhaft und teilweise uneinheitlich ist. Der Test diente explizit dazu, die praktischen Grenzen heutiger LLMs in diesem Kontext zu ermitteln. ...

3. April 2025 · Aaron

Omniverse Tutorial

Was ist Omniverse? Omniverse ist eine Plattform von NVIDIA, mit der man virtuelle 3D-Welten erstellen, verbinden und simulieren kann – und das in Echtzeit. Omniverse ist eine offene Plattform für Entwickler, Designer, Ingenieure, Forscher und Kreative, um: 3D-Anwendungen miteinander zu verbinden (z. B. Blender, Maya, Unreal Engine) Gemeinsam in einer einzigen Szene zu arbeiten – live und gleichzeitig. Physikalisch realistische Simulationen und KI-gesteuerte Anwendungen zu erstellen. Wofür wird Omniverse verwendet? Design, Visualisierung & Simulation von Objekten wie beispielsweise Fahrzeugen in Echtzeit. ...

27. März 2025 · Aaron

Wan 2.1 mit ComfyUI inkl. GPU Support lokal einrichten

ComfyUI ist eine node-basierte Benutzeroberfläche zur Steuerung und Modifikation von KI-Modellen zur Bild- und Videoerstellung. Wan 2.1 ist ein Text-to-Video-Modell (T2V), das speziell für die Generierung von Videos auf Basis von Texteingaben entwickelt wurde. Diese Anleitung beschreibt Schritt für Schritt, wie ComfyUI mit Wan 2.1 lokal eingerichtet wird. Jeder Abschnitt erklärt die benötigten Komponenten, warum sie notwendig sind und wie sie korrekt installiert werden. Diese Anleitung setzt Python 10 und eine GPU mit CUDA-Support voraus. ...

1. März 2025 · Aaron