Teil 1: Strategien für bessere Ergebnisse mit RAG

Retrieval Augmented Generation, kurz RAG, verbindet die Leistungsfähigkeit von Sprachmodellen mit dem spezifischen Wissen eines Unternehmens. Der Ansatz ermöglicht es, interne Dokumente und Daten gezielt in Antworten einzubeziehen, ohne die Hoheit über die eigenen Informationen zu verlieren. Damit wird RAG zunehmend als Schlüsseltechnologie gesehen, um Sprachmodelle sicher und datensouverän einzusetzen. In der Praxis zeigt sich jedoch schnell, dass eine einfache Vektorsuche in Kombination mit einem LLM nicht ausreicht, um wirklich konsistente und qualitativ hochwertige Ergebnisse zu erzielen. Um das Potenzial von RAG voll auszuschöpfen, sind zusätzliche Methoden und Optimierungen notwendig. ...

27. August 2025 · Aaron

Fine-Tuning eines Llama-3.x-Modells via LoRA

Einleitung Große Sprachmodelle (Large Language Models, LLMs) wie Llama 3.x werden in einem aufwendigen Vortrainingsprozess auf gewaltigen Textmengen trainiert. Dieser Prozess erfolgt typischerweise auf spezieller Hardware wie GPUs und TPUs, die für die parallele Berechnung großer neuronaler Netzwerke optimiert sind. Nach Abschluss des Vortrainings sind die Modellparameter eingefroren und können im Regelbetrieb nicht mehr direkt verändert werden. Das bedeutet, dass man das Modell nicht einfach “korrigieren” oder durch einfache Eingriffe gezielt umprogrammieren kann. Inhalte wie zum Beispiel Fakten über historische Persönlichkeiten sind nicht in einzelnen, gezielt ansprechbaren Neuronen gespeichert. Stattdessen sind solche Informationen statistisch verteilt über die Gesamtheit der Modellgewichte codiert. Das erschwert gezielte Änderungen erheblich, da es keine klar identifizierbaren Speicherorte für einzelne Fakten gibt. ...

6. Juli 2025 · Aaron

Wie eine Ontologie die Antwortqualität von LLMs verbessert

Einleitung Spätestens mit dem Aufkommen großer Sprachmodelle (LLMs) wie GPT stellt sich vielen die Frage, wie man solchen Modellen strukturierte, präzise Informationen zur Verfügung stellen kann. Denn obwohl LLMs in der Lage sind, Fragen sehr überzeugend zu beantworten, beruhen viele ihrer Antworten lediglich auf sprachstatistischen Wahrscheinlichkeiten, nicht auf logischem Schließen oder explizitem Faktenwissen. An dieser Stelle bietet der Einsatz einer Ontologie einen systematischen Mehrwert. Im folgenden Beitrag wird anhand einer fiktiven Mission im „Herr der Ringe“-Universum gezeigt, wie eine Ontologie ein LLM bei der Beantwortung komplexer Fragen unterstützen kann. ...

16. Juni 2025 · Aaron

Unstructured.io Tutorial

Einleitung Unstructured.io ist ein Open-Source-Framework zur strukturierten Aufbereitung unstrukturierter Dokumente wie PDFs, Word-Dateien, HTML-Seiten oder E-Mails. Ziel ist es, aus diesen heterogenen Formaten semantisch verwertbare Inhalte zu extrahieren, etwa Überschriften, Absätze, Tabellen oder Listen, und sie in ein einheitliches, maschinenlesbares Format zu überführen. Der Hauptanwendungsfall liegt in der Vorbereitung von Textdaten für nachgelagerte KI-Verarbeitung, insbesondere für Systeme mit Retrieval-Augmented Generation (RAG). Der typische Einsatz erfolgt im Rahmen von Dokumentenanalyse, Wissensmanagement oder zur Vorbereitung von Eingaben für Embedding-Modelle. Dabei kommen mehrere Verarbeitungsschritte zum Einsatz. Diese vier Schritte bilden den Kern der Unstructured.io-Pipeline und werden bei jeder regulären Nutzung der Bibliothek durchlaufen. ...

14. Juni 2025 · Aaron

RAG-Pipeline im Eigenbau

Einleitung Retrieval Augmented Generation (RAG) ist ein Verfahren der natürlichen Sprachverarbeitung (NLP), bei dem ein Sprachmodell mit externem Wissen kombiniert wird, um bessere und präzisere Antworten zu erzeugen. Ein Sprachmodell wie GPT wird nicht nur auf seinem internen Wissen (Training) befragt, sondern erhält zusätzlich kontextbezogene Informationen aus einer externen Wissensquelle, z. B. einer Dokumentensammlung oder Datenbank. Der Beitrag erläutert den Aufbau und die Entwicklung einer RAG-Pipeline im Rahmen eines Lernprojekts. Ziel war es, ein System zu entwickeln, das den Inhalt eines PDF-Dokuments verarbeitet und es ermöglicht, in einem interaktiven Chat Fragen zu diesem Dokument zu stellen. Die Anwendung entstand aus dem Wunsch, die Funktionsweise und das Zusammenspiel der einzelnen Komponenten einer RAG-Anwendung praktisch nachzuvollziehen. ...

9. Juni 2025 · Aaron

Linguistische Textanalyse: Eine hybride Pipeline mit Stanza, DeepSeek und Transformers + Spacy Vergleich

Einleitung Stanza ist eine Open Source NLP Bibliothek der Stanford University, die auf modernen neuronalen Netzen basiert. Sie ermöglicht die umfassende linguistische Analyse von Texten in über 70 Sprachen. Ziel von Stanza ist es, ein vollständiges Pipeline System bereitzustellen, das alle gängigen Verarbeitungsschritte umfasst: Tokenisierung, Wortartenbestimmung (POS), Lemmatisierung, syntaktische Analyse (Abhängigkeiten und Konstituenten) sowie Named Entity Recognition (NER). Stanza eignet sich sowohl für Forschungszwecke als auch für produktive Anwendungen, etwa bei der Textklassifikation, Informationsextraktion oder dem Vorverarbeiten von Texten für Retrieval Augmented Generation (RAG). Die Modelle sind vortrainiert, können aber auch feinjustiert werden. Intern basiert Stanza auf dem PyTorch Framework. ...

7. Juni 2025 · Aaron

Model Context Protokoll (MCP)

In klassischen Softwareanwendungen sind Abläufe fest vorgegeben. Funktionen werden in bestimmter Reihenfolge aufgerufen, Übergaben sind klar definiert, und Entscheidungen werden durch feste Regeln getroffen, die der Entwickler im Code verankert hat. Die Anwendung selbst trifft keine Entscheidungen, sie folgt nur einem starren Ablauf. Wenn man ein Sprachmodell wie GPT in ein System einbinden möchte, muss man normalerweise dafür sorgen, dass alle benötigten Informationen vorher beschafft und vorbereitet werden. Zum Beispiel: Wenn aktuelle Wetterdaten gebraucht werden, schreibt man eine Funktion, die eine API abfragt, die Antwort verarbeitet und den Text an das Modell weitergibt. Das Modell bekommt nur den fertigen Textausschnitt mit den Wetterdaten. Es weiß nicht, woher die Daten stammen, welche Funktion sie geliefert hat oder ob sie aktuell sind. Es trifft auch keine eigene Entscheidung darüber, wann eine bestimmte Funktion aufgerufen werden soll. Es antwortet einfach nur auf Basis des übergebenen Kontexts. ...

28. Mai 2025 · Aaron

MCP-gesteuerter Workflow in n8n

Dieser Beitrag beschreibt den Aufbau eines KI-gesteuerten Agentensystems in n8n, das über das Model Context Protocol (MCP) externe Tools identifiziert, auswählt und ausführt. Zielsetzung Ein Benutzer stellt eine natürliche Spracheingabe, z. B.: “Gib mir die 10 größten Städte in Deutschland. Absteigend nach der Fläche. Suche auch im Internet, um dein Ergebnis abzugleichen.” Der Agent erkennt die Absicht, prüft verfügbare Werkzeuge, entscheidet über eine Toolauswahl, führt bei Bedarf eine Websuche durch und generiert eine geeignete Antwort. Das zugrunde liegende Steuerungskonzept basiert auf MCP, einem Protokoll zur strukturierten Toolkommunikation in agentenbasierten Systemen. ...

27. Mai 2025 · Aaron

RAGFlow Tutorial

RAGFlow ist ein Framework zur strukturierten Umsetzung von Retrieval Augmented Generation (RAG)-Anwendungen. Es bietet eine modulare Architektur, in der einzelne Verarbeitungsschritte wie Dokumentenimport, Textaufbereitung, Vektorisierung, Indexierung und Antwortgenerierung getrennt konfiguriert und ausgeführt werden können. Models Die Plattform unterstützt unterschiedliche Speicherlösungen für Vektordaten und erlaubt die Anbindung verschiedener LLMs. Die Liste der unterstützten LLM sind hier zu finden. Spalte Bedeutung Provider Anbieter oder Quelle des Modells. Kann ein Cloud-Dienst (z.B. OpenAI) oder ein Modellentwickler (z.B. Cohere, BAAI) sein. Chat Unterstützt dialogorientierte Sprachmodelle, die für Konversation oder Antwortgenerierung verwendet werden. Embedding Bietet Einbettungsmodelle zur Umwandlung von Texten in Vektoren für semantische Suche oder Klassifikation. Rerank Modelle zur Re-Rangierung bereits gefundener Treffer, um relevantere Ergebnisse weiter oben anzuzeigen. Img2txt Modelle zur Bildbeschreibung: Wandeln ein Bild in einen beschreibenden Text um. Speech2txt Modelle zur Umwandlung von gesprochener Sprache in geschriebenen Text (ASR - Automatic Speech Recognition). TTS Text-to-Speech: Wandelt geschriebenen Text in synthetische Sprache um. In der Tabelle noch ohne Unterstützung. OpenAI stellt keine Unterstützung für die Funktion „Rerank“ bereit. ...

27. Mai 2025 · Aaron

Hugging Face CLI Praxisleitfaden

Diese Anleitung basiert auf der Hugging Face CLI ab Version 0.34.4. In dieser Version wird die alte Syntax huggingface-cli durch den neuen Befehl hf ersetzt. Ich habe diese Gedankenstütze erstellt, um eine kurze und übersichtliche Referenz zur Hugging Face CLI zu haben. Statt in der offiziellen Dokumentation suchen zu müssen, finde ich hier die wichtigsten Befehle, Beschreibungen und Beispiele auf einen Blick. Was ist Hugging Face? Hugging Face ist eine Plattform für maschinelles Lernen. Im Mittelpunkt steht der Hugging Face Hub, ein öffentlicher und privater Speicherort für KI-Modelle, Datensätze und Anwendungen (Spaces). Entwicklerinnen und Entwickler können dort Modelle teilen, herunterladen und weiterverwenden. Neben dem Hub bietet Hugging Face auch Bibliotheken wie transformers, datasets und diffusers, die den praktischen Einsatz von KI-Modellen erleichtern. Der Hub dient damit sowohl als Marktplatz als auch als Infrastruktur für gemeinschaftliche Entwicklung. ...

19. Mai 2025 · Aaron