Langchain
Sie sollen die Grundlage für eine RAG-Anwendung schaffen, die Fragen zum Studium der Wirtschaftsinformatik beantworten kann. Dazu müssen Informationen von der WI-Website heruntergeladen, aufbereitet und in Embeddings transformiert werden.
Arbeitspunkte
- Starten sei mit einer URL, z.B. (link)
- Extrahieren sie Informationen mittels Langchain (link)
- Zerlegen sie die Informationen in Chunks (link)
- Erzeugen sie Embeddings für die Chunks (link, link). Verwenden sie z.B.:
sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- Speichern Sie die Textfragmente mit ihren Embeddings in einer Vektordatenbank (s.u.)
- Erweitern sie das Ganze mit relevanten URLs aus der WI-Website
- Überlegen sie sich Fragen (Z.B "Wieviele Semester dauert das Bachelor-Studium?")
- Lassen sie sich die drei ähnlichsten Texfragmente aus der Datenbank ausgeben
- Präsentieren sie ihre Lösung
Vektordatenbanken
- Chroma
- LanceDB
- Milvus
- Pinecone
- Qdrant
- Weaviate