aaron.de

Wan 2.1 mit ComfyUI inkl. GPU Support lokal einrichten

ComfyUI ist eine node-basierte Benutzeroberfläche zur Steuerung und Modifikation von KI-Modellen zur Bild- und Videoerstellung. Wan 2.1 ist ein Text-to-Video-Modell (T2V), das speziell für die Generierung von Videos auf Basis von Texteingaben entwickelt wurde. Diese Anleitung beschreibt Schritt für Schritt, wie ComfyUI mit Wan 2.1 lokal eingerichtet wird. Jeder Abschnitt erklärt die benötigten Komponenten, warum sie notwendig sind und wie sie korrekt installiert werden. Diese Anleitung setzt Python 10 und eine GPU mit CUDA-Support voraus. ...

Prompt Decorators: KI-Antworten gezielt steuern

KI-Modelle liefern oft unstrukturierte oder unpräzise Antworten. Wer bessere Ergebnisse möchte, muss seine Prompts entsprechend anpassen. Eine Möglichkeit, dies effizient zu tun, sind Prompt Decorators – klare Anweisungen am Anfang eines Prompts, die das Antwortverhalten der KI steuern. In diesem Beitrag zeige ich, wie man der KI beibringt, diese Decorators zu verstehen und wie man sie anschließend nutzt. Prompt Decorators der KI erklären Die KI erhält eine klare Definition der Decorators z.B. „+++StrukturierteAntwort“, damit sie deren Bedeutung versteht. Die Anweisung, sie in zukünftigen Antworten zu berücksichtigen, sorgt dafür, dass sie nicht nur für eine einzelne Frage gelten. Falls die KI keinen Langzeitspeicher hat, muss diese Einführung bei jeder neuen Sitzung wiederholt werden. ...

KI-Agent Demo: Erweiterte Spam-Erkennung via ChatGPT

In diesem Projekt habe ich eine Thunderbird-Erweiterung entwickelt, die ChatGPT zur erweiterten Spam-Erkennung nutzt. Eingehende E-Mails werden automatisch analysiert und anhand verschiedener Kriterien klassifiziert. Ein lokaler Flask-Server übernimmt die Kommunikation mit ChatGPT und bewertet, ob eine Nachricht als Spam einzustufen ist. Die Umsetzung dient als Demo, um die Möglichkeiten einer KI-gestützten Filterung in Thunderbird zu erproben. Ablauf Sobald Thunderbird eine neue E-Mail empfängt, wird die Erweiterung aktiv. Die Nachricht wird abgefangen, bevor sie vom Nutzer gelesen wird. Die Erweiterung extrahiert den Betreff, den Absender und den E-Mail-Text. ...

Ollama inkl. Modelle mit NVIDIA GPU-Unterstützung unter Docker offline ausführen + OpenWebUI

Hier wurde Ollama mit NVIDIA-GPU-Unterstützung unter Docker auf einem Windows-11-System ausgeführt. Dabei kam OpenWebUI als benutzerfreundliche Oberfläche zum Einsatz, um lokal KI-Modelle zu betreiben. OpenWebUI bietet den Vorteil, dass Nutzer einfach zwischen verschiedenen Modellen wechseln, Anfragen verwalten und die Nutzung der KI komfortabel über eine grafische Oberfläche steuern können. Zudem ermöglicht es eine bessere Übersicht über laufende Instanzen und erleichtert das Testen unterschiedlicher Modelle ohne manuelle Konfigurationsänderungen. WSL 2 Installieren NVIDIA CUDA-Treiber installieren Damit Docker-Container auf die GPU zugreifen können, wird die NVIDIA Container Runtime benötigt. Dies ermöglicht eine schnellere und effizientere Berechnung von KI-Modellen, da rechenintensive Prozesse nicht von der CPU, sondern von der leistungsfähigeren GPU übernommen werden. https://developer.nvidia.com/cuda/wsl ...

Neuronales Netzwerk mit MNIST und TensorFlow

Dieser Code zeigt, wie ein künstliches neuronales Netzwerk mit dem MNIST-Datensatz trainiert wird, um handgeschriebene Ziffern (0-9) zu klassifizieren. Ziel ist es, dass das Modell anhand der Bilddaten vorhersagen kann, welche Ziffer abgebildet ist. Dies wird erreicht durch: 1. Laden und Vorverarbeiten der MNIST-Bilddaten. 2. Erstellen eines neuronalen Netzwerks mit mehreren Schichten (Layers). 3. Trainieren des Netzwerks mit Trainingsdaten. 4. Evaluieren der Leistung des Modells auf Testdaten. 5. Testen des Modells auf neuen Beispieldaten. ...

Ollama mit llama3.2/3.3/DeepSeekv3 lokal verwenden + REST Aufruf.

Ollama LLM-Laufzeitumgebung downloaden und installieren. Nach der Installation kann der Server unter http://127.0.0.1:11434/ aufgerufen werden. 3. Liste der installierten Modelle anzeigen lassen. Die Liste sollte leer sein. ollama list 4. llama3.2 LLM und DeepSeekv3 (404 GB HD & 413GB RAM) downloaden. ollama pull llama3.2 ollama pull deepseek-v3 Auf der Webseite von Meta sind die aktuellen Versionen des LLMs zu finden. 5. llama3 starten. ollama run llama3.2 Das Sprachmodell lässt sich mit “Ctrl + d” oder mit dem Kommando “/bye” anhalten. ...

Spring AI / OpenAI Tutorial

Frage via Spring AI an OpenAI senden und die Antwort anzeigen OpenAI Key erstellen https://platform.openai.com/settings/organization/api-keys Anschließend den Key als Umgebungsvariable setzen: OPENAI_API_KEY Neues Spring Boot Projekt erstellen: https://start.spring.io/ Innerhalb der Spring Boot Anwendung bzw. der “application.properties” Datei den OpenAI Key bzw. Umgebungsvariable (OPENAI_API_KEY) referenzieren. Nachdem wir das Interface und die Klassen erstellt haben, sollte die Projektstruktur wie folgt aussehen: Nachdem Ausführen des Unit-Tests, sollte auf die Frage “Who would win in a fight between Superman and Chuck Norris?” die Antwort angezeigt werden. In diesem Fall: ...

Whisper: Automatische Transkription von Videos in Text

In diesem Beitrag erkläre ich dir, wie du Whisper, ein KI-basiertes Tool von OpenAI, zur automatischen Transkription von Videos verwenden kannst. Whisper ist in der Lage, gesprochene Sprache in verschiedenen Sprachen – einschließlich Deutsch – präzise in Text umzuwandeln. Damit eignet es sich hervorragend, um z. B. Interviews, Vorträge oder persönliche Videos zu transkribieren. Python 3.10 installieren Whisper setzt die Programmiersprache Python voraus und benötigt eine Version zwischen 3.7 und 3.10. In dieser Anleitung verwenden wir Python 3.10, um Kompatibilitätsprobleme zu vermeiden. ...

DNS über HTTPS (DoH) innerhalb von Firefox einstellen

Erweiterte Firefox Einstellungen aufrufen: about:config network.trr.mode von 0 auf 2 umstellen. network.trr.uri auf https://mozilla.cloudflare-dns.com/dns-query umstellen. network.trr.mode ist eine Konfigurationseinstellung in Firefox, die die Verwendung von DNS over HTTPS (DoH) steuert. TRR steht für Trusted Recursive Resolver und bezieht sich auf die Verwendung von DoH, um DNS-Anfragen über eine verschlüsselte HTTPS-Verbindung zu senden, anstatt über herkömmliche, unverschlüsselte DNS-Abfragen. 0 – DoH ist deaktiviert: Firefox verwendet ausschließlich das normale, unverschlüsselte DNS (über UDP oder TCP) und schickt keine DNS-Anfragen über HTTPS. ...

Embedding via ChromaDB Vektordatenbank

Dieser Blogbeitrag behandelt das Konzept von Embeddings und Vektordatenbanken. Dabei wird zunächst erklärt, was Embeddings sind und wie sie im Bereich des Natural Language Processing (NLP) genutzt werden. Anschließend folgt eine Erklärung der Vektoren in einem Raum mit drei Koordinaten und deren Erweiterung auf mehrdimensionale Vektoren. Schließlich wird ChromaDB vorgestellt, eine spezialisierte Vektordatenbank. Was ist ein Embedding? Ein Embedding ist eine Technik im Bereich des maschinellen Lernens und der Datenverarbeitung, die darauf abzielt, Objekte wie Wörter, Sätze oder Dokumente in einen kontinuierlichen Vektorraum zu transformieren. In diesem Vektorraum sind ähnliche Objekte durch ähnliche Vektoren repräsentiert, was bedeutet, dass sie nahe beieinander liegen. Embeddings werden häufig verwendet, um die semantische Bedeutung von Texten zu erfassen und zu analysieren. ...