Table of Contents

Dieser Blogbeitrag behandelt das Konzept von Embeddings und Vektordatenbanken. Dabei wird zunächst erklärt, was Embeddings sind und wie sie im Bereich des Natural Language Processing (NLP) genutzt werden. Anschließend folgt eine Erklärung der Vektoren in einem Raum mit drei Koordinaten und deren Erweiterung auf mehrdimensionale Vektoren. Schließlich wird ChromaDB vorgestellt, eine spezialisierte Vektordatenbank.

Was ist ein Embedding?

Ein Embedding ist eine Technik im Bereich des maschinellen Lernens und der Datenverarbeitung, die darauf abzielt, Objekte wie Wörter, Sätze oder Dokumente in einen kontinuierlichen Vektorraum zu transformieren. In diesem Vektorraum sind ähnliche Objekte durch ähnliche Vektoren repräsentiert, was bedeutet, dass sie nahe beieinander liegen. Embeddings werden häufig verwendet, um die semantische Bedeutung von Texten zu erfassen und zu analysieren.

Vektoren und der numerische Raum

Vektoren in drei Dimensionen

Ein Vektor ist eine Liste von Zahlen, die als Koordinaten in einem Raum betrachtet werden können. Im Alltag sind meistens drei Dimensionen bekannt: x, y und z. Diese Dimensionen können leicht visuell dargestellt werden:

x: Horizontale Achse
y: Vertikale Achse
z: Tiefe

Ein Punkt in diesem dreidimensionalen Raum kann durch einen Vektor wie (x, y, z) beschrieben werden. Zum Beispiel könnte ein Punkt durch den Vektor (1, 2, 3) repräsentiert werden, was seine Position in diesem Raum angibt. Im dreidimensionalen Raum wäre das Wort „Lebewesen“ näher am Wort „Mensch“ positioniert als am Wort „Handball“.

Mehrdimensionale Vektoren

In der Mathematik und im maschinellen Lernen wird oft mit hochdimensionalen Räumen gearbeitet, die mehr als drei Dimensionen haben. Jede zusätzliche Dimension repräsentiert eine weitere unabhängige Eigenschaft oder ein Merkmal der Daten. Zum Beispiel:

4 Dimensionen: (x, y, z, w)
100 Dimensionen: (x1, x2, x3, …, x100)

Obwohl diese zusätzlichen Dimensionen nicht visuell vorstellbar sind, helfen sie dabei, komplexe Daten und deren Beziehungen genauer zu erfassen. Jede Dimension fügt eine neue Art von Information hinzu, die zur Gesamtdarstellung des Punktes (oder Wortes) beiträgt, z.B. Temperatur, Gewicht, Farbe etc. Bei mehrdimensionalen Vektoren müssen daher die x-, y- und z-Koordinaten nicht mehr für die räumliche Beschreibung verwendet werden. Diese drücken die Beziehung der einzelnen Wörter zueinander aus.

Diese Formulierung verdeutlicht, dass in hochdimensionalen Vektorräumen die Dimensionen verschiedene Merkmale oder Eigenschaften darstellen und nicht auf räumliche Beschreibungen beschränkt sind. Die Koordinaten zeigen vielmehr, wie die Wörter semantisch zueinander in Beziehung stehen.

Textkorpusanalyse und Embeddings

Um die Effizienz und Genauigkeit der Vektordatenbank von ChromaDB zu maximieren, ist eine sorgfältige Analyse des Textkorpus unerlässlich. Diese Analyse dient dazu, die Texte vorzubereiten und relevante Merkmale zu extrahieren, die anschließend in den Vektorraum eingebettet werden. Durch diesen Prozess können semantische Ähnlichkeiten zwischen den Texten präziser erfasst und genutzt werden, was die Leistungsfähigkeit von ChromaDB in der Praxis erheblich steigert. Dieser Prozess umfasst mehrere Schritte:

Korpusvorbereitung: Sammlung und Bereinigung von Texten.
Tokenisierung: Zerlegung des Textes in Wörter oder Sätze.
Normalisierung: Vereinheitlichung der Wörter (z.B. Kleinschreibung, Stemming).
Stoppwörter entfernen: Entfernen häufig vorkommender, aber wenig informativer Wörter.
Feature-Extraktion: Methoden wie Bag of Words oder TF-IDF zur Gewichtung der Wörter.
Modellierung und Analyse: Einsatz von Word Embeddings oder Themenmodellierung zur Erfassung semantischer Bedeutungen und Themen.

ChromaDB

ChromaDB ist eine spezialisierte Vektordatenbank, die darauf ausgelegt ist, Vektoren zu speichern, zu verwalten und abzufragen. Vektordatenbanken sind besonders nützlich für Anwendungen im Bereich NLP, wo die semantische Ähnlichkeit zwischen Texten erfasst werden muss. ChromaDB ermöglicht es, Dokumente hinzuzufügen, die in Vektoren umgewandelt werden, und ermöglicht es, Abfragen basierend auf diesen Vektoren durchzuführen.

ChromaDB Beispiel

Im Folgenden findet sich ein Beispiel, das zeigt, wie ChromaDB verwendet werden kann, um Dokumente hinzuzufügen und eine Abfrage durchzuführen. Hinweis: Innerhalb von Visual Studio Code gab es zahlreiche Bugs bei der Ausführung der Beispiele. PyCharm hat hingegen ohne Probleme funktioniert.

# Importiert das chromadb-Modul, das für die Arbeit mit eingebetteten Vektoren und Datenbankoperationen verwendet wird.
import chromadb

# Erstellt eine neue Instanz eines ChromaDB-Clients, um mit der Datenbank zu interagieren.
# Der Client verwaltet die Verbindung zur Datenbank und bietet Methoden zur Manipulation von Sammlungen und Dokumenten.
chroma_client = chromadb.Client()

# Erstellt eine neue Sammlung in der Datenbank mit dem Namen "my_collection".
# Eine Sammlung kann als eine Tabelle in einer relationalen Datenbank betrachtet werden, die Dokumente enthält.
collection = chroma_client.create_collection(name="my_collection")

# Fügt zwei Dokumente zur Sammlung hinzu, mit den zugehörigen IDs "id1" und "id2".
# Jedes Dokument wird als Text gespeichert und mit einer eindeutigen ID versehen.
collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges"
    ],
    ids=["id1", "id2"]
)

# Führt eine Abfrage in der Sammlung durch, indem der Text "This is a query document about hawaii" eingebettet wird.
# Die Abfrage sucht nach den 2 ähnlichsten Dokumenten in der Sammlung.
results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma wird diesen Text einbetten
    n_results=2 # Anzahl der zurückzugebenden Ergebnisse
)

# Gibt die Ergebnisse der Abfrage aus. Dies beinhaltet IDs, Distanzen, Dokumenttexte und Metadaten der ähnlichsten Dokumente.
print(results)

chromadb_test.py

{
    'ids': [['id1', 'id2']], 
    'distances': [[1.0404009819030762, 1.2430799007415771]], 
    'metadatas': [[None, None]], 
    'embeddings': None, 
    'documents': [
        ['This is a document about pineapple', 'This is a document about oranges']
    ], 
    'uris': None, 
    'data': None, 
    'included': ['metadatas', 'documents', 'distances']
}

Ausgabe des Codes

Feld	Beschreibung	Wert
ids	Liste der IDs der zurückgegebenen Dokumente	[[‚id1‘, ‚id2‘]]
distances	Liste der Distanzen zwischen der Abfrage und den zurückgegebenen Dokumenten. Je kleiner der Wert, desto ähnlicher.	[[1.0404009819030762, 1.2430799007415771]]
metadatas	Liste der Metadaten der zurückgegebenen Dokumente	[[None, None]]
embeddings	Einbettungen der Dokumente. In diesem Fall nicht enthalten	None
documents	Liste der tatsächlichen Dokumenttexte, die als Ergebnis der Abfrage zurückgegeben wurden	[[‚This is a document about pineapple‘, ‚This is a document about oranges‘]]
uris	URIs der zurückgegebenen Dokumente. In diesem Fall nicht enthalten	None
data	Zusätzliche Daten, falls vorhanden. In diesem Fall nicht enthalten	None
included	Liste der Felder, die in den Ergebnissen enthalten sind	[‚metadatas‘, ‚documents‘, ‚distances‘]

Distanzmessung zwecks Ermittlung der Ähnlichkeit zwischen Vektoren

Die Distanzwerte in der Ausgabe repräsentieren die Ähnlichkeit zwischen der Abfrage und den zurückgegebenen Dokumenten. ChromaDB verwendet Einbettungsmodelle, um Dokumente in einen mehrdimensionalen Vektorraum zu projizieren, wo die Ähnlichkeit durch die Distanzen zwischen diesen Vektoren gemessen wird.

Die Distanz zwischen Vektoren im mehrdimensionalen Raum wird üblicherweise durch verschiedene metrische Methoden berechnet. Eine der häufigsten Methoden ist die Berechnung der euklidischen Distanz. Andere Methoden umfassen die kosinussimilarität, Manhattan-Distanz und weitere.

Persistierung der Einträge

import chromadb

# Erstellt eine persistente ChromaDB-Client-Instanz, die Daten im angegebenen Pfad speichert.
client = chromadb.PersistentClient(path=r"C:\sources\PycharmProjects\pythonProject\db")

# Versucht, eine vorhandene Sammlung mit dem Namen "books_collection" zu laden. Falls sie nicht existiert, wird sie erstellt.
try:
    collection = client.get_collection(name="books_collection")
except ValueError as e:
    if "Collection books_collection does not exist." in str(e):
        collection = client.create_collection(name="books_collection")
    else:
        raise

# Beispielbücher
books = [
    "This is the content of book one",
    "This is the content of book two"
]

# Feste IDs für die Beispielbücher, um eine konsistente Überprüfung und Aktualisierung zu ermöglichen
book_ids = ["book1-id", "book2-id"]

# Funktion zur Überprüfung, ob eine ID bereits existiert
def document_exists(collection, id):
    try:
        result = collection.get(ids=[id])
        return len(result['ids'][0]) > 0
    except (IndexError, KeyError):
        return False

# Liste für neue Dokumente und IDs
new_documents = []
new_ids = []

# Prüft, ob die Bücher bereits existieren und sortiert sie entsprechend
for book, book_id in zip(books, book_ids):
    if document_exists(collection, book_id):
        print(f"Der Eintrag mit der ID {book_id} existiert bereits.")
    else:
        new_documents.append(book)
        new_ids.append(book_id)

# Fügt neue Bücher hinzu
if new_documents:
    collection.add(
        documents=new_documents,
        ids=new_ids
    )

# Führt eine Abfrage in der Sammlung durch, indem der Text "This is a query document about hawaii" eingebettet wird.
results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma wird dies für Sie einbetten
    n_results=2 # Anzahl der zurückzugebenden Ergebnisse
)

# Gibt die Ergebnisse der Abfrage aus. Dies beinhaltet IDs, Distanzen, Dokumenttexte und Metadaten der ähnlichsten Dokumente.
print(results)