Vektordatenbanken

Aufgabenstellung

Alle Gruppe arbeiteten mit verschiedenen Vektordatenbanken.

  • g1: Chroma
  • g2: LanceDB
  • g3: Milvus
  • g4: Pinecone
  • g4: Qdrant
  • g6: Weaviate

Sie sollen die Grundlage einer RAG-Anwendung schaffen, die Fragen zum Studium der Wirtschaftsinformatik beantworten kann. Dazu müssen Informationen von der WI-Website (link) in der Vektordatenbank gespeichert werden. Diese dienen dazu, Kontext für die Prompts eines Sprachmodells bereitzustellen, in dem zur Frage ähnliche Texte (Fragmente) aus der Website zum Prompt hinzugefügt werden.
Arbeitspunkte

  • Lassen sie die Datenbank in einem Docker-Container laufen.
  • Identifizieren sie die relevanten URLs (HTML und PDF)
  • Extrahieren sie Informationen mittels Langchain (link)
  • Zerlegen sie die Informationen ggfs in Chunks
  • Erzeugen sie Embeddings für die Chunks. Sie finden in der Langchain-Dokumentation Informationen zu frei verfügbaren Embeddings
  • Speichern Sie die Textfragmente mit ihren Embeddings in der Vektordatenbank
  • Überlegen sie sich Fragen (Z.B "Wieviele Semester dauert das Bachelor-Studium?")
  • Lassen sie sich die drei ähnlichsten Texfragmente aus der Datenbank ausgeben
  • Präsentieren sie die von ihnen gewählte Datenbank
  • Präsentieren sie ihre Lösung (optional)
  • Die Anbindung an ein Sprachmodell ist nicht Gegenstand der Aufgabe
  • Die Implementierung ist nicht Gegenstand der Bewertung. Sie dient dazu, die Funktionalität der Vektordatenbank besser zu verstehen und darstellen zu können
Top Sitemap