Top Up Home HTML2PDF Vektordatenabnken

Vektordatenbanken

Speicherung und Verwaltung von Vektordaten
Effiziente Suche nächstgelegener Nachbarn
Distanzmaße
Index-Strukturen
Auch in hochdimensionalen Vektorräumen
Anwendung in Zusammenhang mit

Semantischen Vektoreinbettungen (Embeddings)
Großen Sprachmodellen (Large Language Models, LLM)
Retrieval Augmented Generation (RAG)

Aktives Entwicklungsfeld - viele neue Anbieter

Vektoreinbettungen 1

Vektor = Zahlenfeld fester Länge

Zweidimensional: (3, 5): Vektor der in der Ebene
Dreidimensional: (3, 5, 1): Vektor im Raum
1536-dimensional: (1.7, 2.9, 0.9, ..., 3.4, 4,7): OpenAI-Texteinbettung

Einbettungen: Umwandlung von Datenobjekten in Vektoren

Texte, Bilder, Audio, Video
Erfassung der Bedeutung der Objekte
Ähnlichkeiten von Wörtern, Bildern usw.

(Quelle)

Vektoreinbettungen 2

Mathematische Repräsentation von Datenobjekten
Komprimierte, einheitliche Darstellung
Bewahren Beziehungen in den Daten
Ergebnis tiefer neuronaler Netze (Deep Learning)

(Quelle)

Sentence Transformers

Vektoreinbettungen - Beispiel 1

Vektoreinbettungen - Beispiel 2

Vektoreinbettungen - Beispiel 3

Explained: Tokens and Embeddings in LLMs (link)

Retrieval Augmented Generation

Distanzmaße

Gängige Distanzmaße in Vektordatenbanken

Verteilung im n-dimensionalen Raum 1

Ein-dimensional

Zwei-dimensional

Drei-dimensional

Verteilung von 50 Datenpunkten
Seitenlänge eines Teilwürfels: 0.2 Einheiten
Füllgrad der Teilwürfel nimmt drastisch ab

Verteilung im n-dimensionalen Raum 2

Verhalten der Verteilung bei 20% Seitenlänge

Ein-dimensional: ca. 20% Datenpunkte
Zwei-dimensional: ca. 4% Datenpunkte
Drei-dimensional: viele leere Teilwürfel
n>10-dimensional: sehr dünn besiedelter Datenraum

784-dimensional: für 20% der Datenpunkte ist über 99,9% Seitenlänge erforderlich

Distanzen im n-dimensinalen Raum

Je mehr Dimensionen, desto

größer die Abstände
ähnlicher die Abstände

Fluch der Dimensionalität
Euklidische Distanz verliert an Bedeutung

Vergleich der Ähnlichkeitsmaße

Cosinus-Ähnlichkeit	Euklidische Distanz	Inneres Prdukt
Winkel zwischen Vektoren	Abstand zwischen Vektoren	Winkel und Abstand zwischen Vektoren
Unabhängigkeit von Größe der Vektoren	Abhängigkeit von Größe der Vektoren	Abhängigkeit von Größe der Vektoren

Eignung und Einsatzbereiche der jeweiligen Metrik: Untersuchung im Klassenraum

Suchstrategien in Vektordatenbanken

Lineare Suche

Berechne Distanz des Query-Vektors zu allen Vektoren in der DB
Liefere Vektor mit geringstem Abstand
Liefert genaue Ergebnisse
Zu langsam bei großen Datemengen

Inverted File Index

Partitionierung des Datenraums auf Basis von Clustering, z.B 256 Cluster
256 Zentroide
Berechne Distanz des Query-Vektors zu allen Zentroiden
Lineare Suche in der Partition des gefundenen Zentroiden
Liefert Näherungswerte
Drastische Reduktion der Suchvorgänge

Quantitisierung

Reduzierung der Genauigkeit der Vektoren
Spart Speicherplatz, z.B. 8-fach bei float64 zu int8
Schnellere Abstandsberechnungen auf int8 als auf float64
Skalare Quantitisierung
Produkt-Quantitisierung

Hierarchical Navigable Small Worlds (HNSW)

Umwandlung der Vektoren in einen Graph
Abstände zwischen Vektoren als Kanten
Multi-Ebenen-Graph
Hierarchische Suche im Graphen

Lineare Suche

(Quelle)
(Render)
(Download)

Inverted File Index

(Quelle)
(Render)
(Download)

Skalare Quantitisierung

(Quelle)
(Render)
(Download)

Produkt-Quantitisierung

(Quelle)
(Render)
(Download)

Hierarchical Navigable Small Worlds (HNSW)