aaron.de

Teil 2: Strategien für bessere Ergebnisse mit RAG

In Teil 1 haben wir gesehen, wie entscheidend eine saubere Dokumentenaufbereitung und ein durchdachtes Chunking für die Qualität von Retrieval Augmented Generation sind. Diese Grundlagen bilden den Startpunkt für eine ganze Reihe weiterer Optimierungen, die den gesamten Prozess prägen. In Teil 2 setzen wir die Reihe fort und widmen uns den nächsten Bausteinen, die auf dieser Basis aufbauen und den Einsatz von RAG im Unternehmen weiterentwickeln. Embedding Domänenspezifische Embeddings Domänenspezifische Embeddings bedeuten, dass Vektordarstellungen von Texten nicht mit allgemein trainierten Embeddingmodellen erzeugt werden, sondern mit Modellen, die auf die Fachsprache und Inhalte einer bestimmten Branche oder eines Unternehmens angepasst wurden. Allgemeine Modelle sind auf sehr große, unspezifische Textmengen trainiert, darunter Bücher, Webseiten, Wikipedia und weitere Quellen. Sie verstehen Alltagssprache und viele Standardkonzepte, verfehlen aber oft die Feinheiten in z.B. juristischen Verträgen, technischen Handbüchern oder medizinischen Befunden. Domänenspezifische Embeddings entstehen durch Feintuning eines vorhandenen Modells mit Daten aus der jeweiligen Fachdomäne oder durch Training eines eigenen Modells auf einem Korpus aus internen Dokumenten, Richtlinien, Protokollen und Handbüchern. ...

Teil 1: Strategien für bessere Ergebnisse mit RAG

Retrieval Augmented Generation, kurz RAG, verbindet die Leistungsfähigkeit von Sprachmodellen mit dem spezifischen Wissen eines Unternehmens. Der Ansatz ermöglicht es, interne Dokumente und Daten gezielt in Antworten einzubeziehen, ohne die Hoheit über die eigenen Informationen zu verlieren. Damit wird RAG zunehmend als Schlüsseltechnologie gesehen, um Sprachmodelle sicher und datensouverän einzusetzen. In der Praxis zeigt sich jedoch schnell, dass eine einfache Vektorsuche in Kombination mit einem LLM nicht ausreicht, um wirklich konsistente und qualitativ hochwertige Ergebnisse zu erzielen. Um das Potenzial von RAG voll auszuschöpfen, sind zusätzliche Methoden und Optimierungen notwendig. ...

Fine-Tuning eines Llama-3.x-Modells via LoRA

Einleitung Große Sprachmodelle (Large Language Models, LLMs) wie Llama 3.x werden in einem aufwendigen Vortrainingsprozess auf gewaltigen Textmengen trainiert. Dieser Prozess erfolgt typischerweise auf spezieller Hardware wie GPUs und TPUs, die für die parallele Berechnung großer neuronaler Netzwerke optimiert sind. Nach Abschluss des Vortrainings sind die Modellparameter eingefroren und können im Regelbetrieb nicht mehr direkt verändert werden. Das bedeutet, dass man das Modell nicht einfach “korrigieren” oder durch einfache Eingriffe gezielt umprogrammieren kann. Inhalte wie zum Beispiel Fakten über historische Persönlichkeiten sind nicht in einzelnen, gezielt ansprechbaren Neuronen gespeichert. Stattdessen sind solche Informationen statistisch verteilt über die Gesamtheit der Modellgewichte codiert. Das erschwert gezielte Änderungen erheblich, da es keine klar identifizierbaren Speicherorte für einzelne Fakten gibt. ...

Wie eine Ontologie die Antwortqualität von LLMs verbessert

Einleitung Spätestens mit dem Aufkommen großer Sprachmodelle (LLMs) wie GPT stellt sich vielen die Frage, wie man solchen Modellen strukturierte, präzise Informationen zur Verfügung stellen kann. Denn obwohl LLMs in der Lage sind, Fragen sehr überzeugend zu beantworten, beruhen viele ihrer Antworten lediglich auf sprachstatistischen Wahrscheinlichkeiten, nicht auf logischem Schließen oder explizitem Faktenwissen. An dieser Stelle bietet der Einsatz einer Ontologie einen systematischen Mehrwert. Im folgenden Beitrag wird anhand einer fiktiven Mission im „Herr der Ringe“-Universum gezeigt, wie eine Ontologie ein LLM bei der Beantwortung komplexer Fragen unterstützen kann. ...

Unstructured.io Tutorial

Einleitung Unstructured.io ist ein Open-Source-Framework zur strukturierten Aufbereitung unstrukturierter Dokumente wie PDFs, Word-Dateien, HTML-Seiten oder E-Mails. Ziel ist es, aus diesen heterogenen Formaten semantisch verwertbare Inhalte zu extrahieren, etwa Überschriften, Absätze, Tabellen oder Listen, und sie in ein einheitliches, maschinenlesbares Format zu überführen. Der Hauptanwendungsfall liegt in der Vorbereitung von Textdaten für nachgelagerte KI-Verarbeitung, insbesondere für Systeme mit Retrieval-Augmented Generation (RAG). Der typische Einsatz erfolgt im Rahmen von Dokumentenanalyse, Wissensmanagement oder zur Vorbereitung von Eingaben für Embedding-Modelle. Dabei kommen mehrere Verarbeitungsschritte zum Einsatz. Diese vier Schritte bilden den Kern der Unstructured.io-Pipeline und werden bei jeder regulären Nutzung der Bibliothek durchlaufen. ...

RAG-Pipeline im Eigenbau

Einleitung Retrieval Augmented Generation (RAG) ist ein Verfahren der natürlichen Sprachverarbeitung (NLP), bei dem ein Sprachmodell mit externem Wissen kombiniert wird, um bessere und präzisere Antworten zu erzeugen. Ein Sprachmodell wie GPT wird nicht nur auf seinem internen Wissen (Training) befragt, sondern erhält zusätzlich kontextbezogene Informationen aus einer externen Wissensquelle, z. B. einer Dokumentensammlung oder Datenbank. Der Beitrag erläutert den Aufbau und die Entwicklung einer RAG-Pipeline im Rahmen eines Lernprojekts. Ziel war es, ein System zu entwickeln, das den Inhalt eines PDF-Dokuments verarbeitet und es ermöglicht, in einem interaktiven Chat Fragen zu diesem Dokument zu stellen. Die Anwendung entstand aus dem Wunsch, die Funktionsweise und das Zusammenspiel der einzelnen Komponenten einer RAG-Anwendung praktisch nachzuvollziehen. ...

Linguistische Textanalyse: Eine hybride Pipeline mit Stanza, DeepSeek und Transformers + Spacy Vergleich

Einleitung Stanza ist eine Open Source NLP Bibliothek der Stanford University, die auf modernen neuronalen Netzen basiert. Sie ermöglicht die umfassende linguistische Analyse von Texten in über 70 Sprachen. Ziel von Stanza ist es, ein vollständiges Pipeline System bereitzustellen, das alle gängigen Verarbeitungsschritte umfasst: Tokenisierung, Wortartenbestimmung (POS), Lemmatisierung, syntaktische Analyse (Abhängigkeiten und Konstituenten) sowie Named Entity Recognition (NER). Stanza eignet sich sowohl für Forschungszwecke als auch für produktive Anwendungen, etwa bei der Textklassifikation, Informationsextraktion oder dem Vorverarbeiten von Texten für Retrieval Augmented Generation (RAG). Die Modelle sind vortrainiert, können aber auch feinjustiert werden. Intern basiert Stanza auf dem PyTorch Framework. ...

Model Context Protokoll (MCP)

In klassischen Softwareanwendungen sind Abläufe fest vorgegeben. Funktionen werden in bestimmter Reihenfolge aufgerufen, Übergaben sind klar definiert, und Entscheidungen werden durch feste Regeln getroffen, die der Entwickler im Code verankert hat. Die Anwendung selbst trifft keine Entscheidungen, sie folgt nur einem starren Ablauf. Wenn man ein Sprachmodell wie GPT in ein System einbinden möchte, muss man normalerweise dafür sorgen, dass alle benötigten Informationen vorher beschafft und vorbereitet werden. Zum Beispiel: Wenn aktuelle Wetterdaten gebraucht werden, schreibt man eine Funktion, die eine API abfragt, die Antwort verarbeitet und den Text an das Modell weitergibt. Das Modell bekommt nur den fertigen Textausschnitt mit den Wetterdaten. Es weiß nicht, woher die Daten stammen, welche Funktion sie geliefert hat oder ob sie aktuell sind. Es trifft auch keine eigene Entscheidung darüber, wann eine bestimmte Funktion aufgerufen werden soll. Es antwortet einfach nur auf Basis des übergebenen Kontexts. ...

MCP-gesteuerter Workflow in n8n

Dieser Beitrag beschreibt den Aufbau eines KI-gesteuerten Agentensystems in n8n, das über das Model Context Protocol (MCP) externe Tools identifiziert, auswählt und ausführt. Zielsetzung Ein Benutzer stellt eine natürliche Spracheingabe, z. B.: “Gib mir die 10 größten Städte in Deutschland. Absteigend nach der Fläche. Suche auch im Internet, um dein Ergebnis abzugleichen.” Der Agent erkennt die Absicht, prüft verfügbare Werkzeuge, entscheidet über eine Toolauswahl, führt bei Bedarf eine Websuche durch und generiert eine geeignete Antwort. Das zugrunde liegende Steuerungskonzept basiert auf MCP, einem Protokoll zur strukturierten Toolkommunikation in agentenbasierten Systemen. ...

RAGFlow Tutorial

RAGFlow ist ein Framework zur strukturierten Umsetzung von Retrieval Augmented Generation (RAG)-Anwendungen. Es bietet eine modulare Architektur, in der einzelne Verarbeitungsschritte wie Dokumentenimport, Textaufbereitung, Vektorisierung, Indexierung und Antwortgenerierung getrennt konfiguriert und ausgeführt werden können. Models Die Plattform unterstützt unterschiedliche Speicherlösungen für Vektordaten und erlaubt die Anbindung verschiedener LLMs. Die Liste der unterstützten LLM sind hier zu finden. Spalte Bedeutung Provider Anbieter oder Quelle des Modells. Kann ein Cloud-Dienst (z.B. OpenAI) oder ein Modellentwickler (z.B. Cohere, BAAI) sein. Chat Unterstützt dialogorientierte Sprachmodelle, die für Konversation oder Antwortgenerierung verwendet werden. Embedding Bietet Einbettungsmodelle zur Umwandlung von Texten in Vektoren für semantische Suche oder Klassifikation. Rerank Modelle zur Re-Rangierung bereits gefundener Treffer, um relevantere Ergebnisse weiter oben anzuzeigen. Img2txt Modelle zur Bildbeschreibung: Wandeln ein Bild in einen beschreibenden Text um. Speech2txt Modelle zur Umwandlung von gesprochener Sprache in geschriebenen Text (ASR - Automatic Speech Recognition). TTS Text-to-Speech: Wandelt geschriebenen Text in synthetische Sprache um. In der Tabelle noch ohne Unterstützung. OpenAI stellt keine Unterstützung für die Funktion „Rerank“ bereit. ...