RAG-System von Grund auf aufbauen: Dokumentparserung + Vektorisierung + Retrieval + Generierung — Der vollständige Prozess

Stellen Sie sich folgendes Szenario vor: Ein mittelständischer E-Commerce-Betreiber steht vor einem typischen Problem — sein KI-Chatbot soll plötzlich Fragen zu über 50.000 Produktbeschreibungen, Handbüchern und Kundenbewertungen beantworten können. Die klassische Methode, alle Dokumente als Kontext an ein LLM zu senden, stößt sofort an technische Grenzen. Genau hier kommt Retrieval Augmented Generation (RAG) ins Spiel.

In diesem praxisorientierten Tutorial zeige ich Ihnen, wie Sie ein vollständiges RAG-System aufbauen — von der reinen Dokumentparserung über die Vektorisierung, das Retrieval bis hin zur generativen Antwort mit HolySheep AI als leistungsstarkem Backend.

Was ist ein RAG-System?

Ein RAG-System kombiniert die Stärken von Suchmaschinen mit der Argumentationsfähigkeit großer Sprachmodelle (LLMs). Der grundlegende Ablauf besteht aus vier Kernphasen:

Document Ingestion: Dokumente werden parseriert und in lesbare Textabschnitte zerlegt
Embedding & Vectorization: Textabschnitte werden in numerische Vektoren umgewandelt
Retrieval: Bei einer Nutzerfrage werden die relevantesten Textabschnitte gefunden
Generation: Das LLM generiert eine Antwort basierend auf den retrieved Kontextabschnitten

Der entscheidende Vorteil: Anstatt das gesamte Wissen im LLM zu "pressen", greift das System dynamisch auf aktuelle und relevante Informationen zu. Das reduziert Halluzinationen drastisch und ermöglicht Antworten zu Dokumenten, die dem Modell nie als Trainingsdaten dienten.

Phase 1: Dokumentparserung und Textzerlegung

Der erste Schritt besteht darin, unstrukturierte Dokumente in maschinenlesbare Textabschnitte zu überführen. Dabei gilt es, einige wesentliche Entscheidungen zu treffen:

Chunking-Strategie

Die Granularität der Textzerlegung beeinflusst maßgeblich die Retrieval-Qualität. Für die meisten Anwendungsfälle empfehle ich einen rekursiven Character-Split mit Überlappung:

import re
from typing import List

class DocumentChunker:
    """Zerlegt Dokumente in semantisch sinnvolle Abschnitte."""
    
    def __init__(self, chunk_size: int = 512, overlap: int = 64):
        self.chunk_size = chunk_size
        self.overlap = overlap
    
    def chunk_text(self, text: str) -> List[str]:
        """Rekursiver Chunking-Algorithmus mit Überlappung."""
        # Bereinigung des Textes
        text = self._preprocess_text(text)
        
        chunks = []
        start = 0
        text_length = len(text)
        
        while start < text_length:
            end = min(start + self.chunk_size, text_length)
            
            # Versuche, an Satzgrenzen zu splitten
            if end < text_length:
                # Suche nach letztem Satzende vor chunk_size
                chunk = text[start:end]
                last_period = max(
                    chunk.rfind('。'),
                    chunk.rfind('.'),
                    chunk.rfind('!'),
                    chunk.rfind('?')
                )
                if last_period > self.chunk_size * 0.5:
                    end = start + last_period + 1
            
            chunks.append(text[start:end].strip())
            start = end - self.overlap if end < text_length else text_length
        
        return [c for c in chunks if len(c) > 50]  # Filtere zu kurze Chunks
    
    def _preprocess_text(self, text: str) -> str:
        """Normalisiert den Text für die Verarbeitung."""
        # Ersetze mehrfache Leerzeichen
        text = re.sub(r'\s+', ' ', text)
        # Entferne spezielle Steuerzeichen
        text = re.sub(r'[\x00-\x08\x0b\x0c\x0e-\x1f\x7f-\x9f]', '', text)
        return text.strip()

Beispiel-Nutzung
chunker = DocumentChunker(chunk_size=512, overlap=64)
sample_text = """
Kundenbewertung für Produkt XYZ-3000:
★ ★ ★ ★ ★ (5/5)
"Absolut fantastisches Produkt! Die Verarbeitung ist erstklassig und 
die Leistung übertrifft alle meine Erwartungen. Besonders hervorzuheben 
ist die intuitive Bedienung. Nach nur 10 Minuten war ich vertraut mit 
allen Funktionen. Das Preis-Leistungs-Verhältnis ist unschlagbar."
— Maria Schmidt, München
"""
chunks = chunker.chunk_text(sample_text)
print(f"Erzeugte {len(chunks)} Chunks")
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}: {chunk[:100]}...")

Unterstützte Dokumentformate

Für verschiedene Dateitypen benötigen Sie spezialisierte Parser:

PDF: PyMuPDF oder pdfplumber für Textextraktion
DOCX: python-docx für Microsoft Word-Dokumente
HTML/Markdown: BeautifulSoup für Webinhalte
Bilder: OCR mit Tesseract oder Cloud-Vision-APIs

Phase 2: Vektorisierung mit Embedding-Modellen

Der Kern der Retrieval-Fähigkeit liegt in der Konvertierung von Text in numerische Vektoren — sogenannte Embeddings. Diese Vektoren repräsentieren die semantische Bedeutung eines Textes in einem hochdimensionalen Raum.

Embedding mit HolySheep AI

HolySheep AI bietet hochwertige Embedding-Modelle mit unter 50ms Latenz und einem Bruchteil der Kosten von Alternativen wie OpenAI. Für Embeddings gilt: Text-Embedding-3-Large liefert die beste Qualität für komplexe语义搜索-Szenarien.

import requests
from typing import List, Dict
import numpy as np

class HolySheepEmbeddings:
    """Integration für HolySheep AI Embeddings."""
    
    def __init__(self, api_key: str):
        self.base_url = "https://api.holysheep.ai/v1"
        self.headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }
    
    def embed_documents(self, texts: List[str], model: str = "text-embedding-3-large") -> List[List[float]]:
        """
        Generiert Embeddings für eine Liste von Dokumenten.
        
        Args:
            texts: Liste der zu vektorisierenden Texte
            model: Zu verwendendes Embedding-Modell
        
        Returns:
            Liste von Embedding-Vektoren
        """
        embeddings = []
        
        # Batch-Verarbeitung für Effizienz
        batch_size = 100
        for i in range(0, len(texts), batch_size):
            batch = texts[i:i + batch_size]
            
            payload = {
                "model": model,
                "input": batch
            }
            
            try:
                response = requests.post(
                    f"{self.base_url}/embeddings",
                    headers=self.headers,
                    json=payload,
                    timeout=30
                )
                response.raise_for_status()
                data = response.json()
                
                # Extrahiere Embedding-Vektoren aus der Antwort
                batch_embeddings = [item["embedding"] for item in data["data"]]
                embeddings.extend(batch_embeddings)
                
            except requests.exceptions.RequestException as e:
                print(f"Fehler bei Batch {i//batch_size + 1}: {e}")
                # Fallback: Leere Vektoren mit korrekter Dimension
                fallback_dim = 3072 if model == "text-embedding-3-large" else 1536
                embeddings.extend([[0.0] * fallback_dim] * len(batch))
        
        return embeddings
    
    def embed_query(self, query: str, model: str = "text-embedding-3-large") -> List[float]:
        """Generiert ein Embedding für eine einzelne Nutzeranfrage."""
        payload = {
            "model": model,
            "input": query
        }
        
        response = requests.post(
            f"{self.base_url}/embeddings",
            headers=self.headers,
            json=payload
        )
        response.raise_for_status()
        
        return response.json()["data"][0]["embedding"]

Initialisierung mit API-Key
api_key = "YOUR_HOLYSHEEP_API_KEY"
embeddings_client = HolySheepEmbeddings(api_key)

Beispiel: Produktbeschreibungen vektorisieren
product_descriptions = [
    "Hochwertiger kabelloser Kopfhörer mit Active Noise Cancellation",
    "Bluetooth-Lautsprecher mit 20 Stunden Akkulaufzeit",
    "USB-C Ladekabel, 2 Meter, Schnellladefähig",
    "Tragbarer Akku mit 20000mAh Kapazität",
    "Smartwatch mit Herzfrequenzmesser und GPS"
]

Generiere Embeddings
print("Generiere Embeddings für Produktkatalog...")
product_embeddings = embeddings_client.embed_documents(product_descriptions)
print(f"✓ {len(product_embeddings)} Embeddings erstellt")
print(f"  Vektordimension: {len(product_embeddings[0])}")

Nutzeranfrage vektorisieren
user_query = "Ich suche einen Kopfhörer ohne Kabel mit Geräuschunterdrückung"
query_embedding = embeddings_client.embed_query(user_query)
print(f"\n✓ Query-Embedding generiert")

Embedding-Modellauswahl

Die Wahl des richtigen Embedding-Modells beeinflusst direkt die Retrieval-Genauigkeit:

text-embedding-3-large: 3072 Dimensionen, beste Qualität, ideal für komplexe语义关系
text-embedding-3-small: 1536 Dimensionen, gutes Preis-Leistungs-Verhältnis
text-embedding-ada-002: Bewährte Option, 1536 Dimensionen

Phase 3: Retrieval und Ähnlichkeitssuche

Der Retrieval-Schritt findet die relevantesten Textabschnitte zu einer Nutzeranfrage. Hier kommen Vektordatenbanken ins Spiel, die effiziente Ähnlichkeitssuchen in hochdimensionalen Räumen ermöglichen.

Vektordatenbank-Integration

import numpy as np
from numpy.linalg import norm
from typing import List, Tuple, Optional
import json
from pathlib import Path

class SimpleVectorStore:
    """
    Leichte Vektordatenbank-Implementierung für RAG-Systeme.
    Für Produktionsumgebungen: Milvus, Pinecone, Weaviate oder Qdrant empfohlen.
    """
    
    def __init__(self, distance_metric: str = "cosine"):
        self.vectors = []
        self.metadata = []
        self.distance_metric = distance_metric
    
    def add_vectors(self, vectors: List[List[float]], metadata: List[dict]):
        """Fügt Vektoren mit Metadaten zum Store hinzu."""
        self.vectors.extend(vectors)
        self.metadata.extend(metadata)
    
    def _calculate_distance(self, vec1: List[float], vec2: List[float]) -> float:
        """Berechnet Distanz zwischen zwei Vektoren."""
        if self.distance_metric == "cosine":
            # Kosinus-Ähnlichkeit
            dot_product = np.dot(vec1, vec2)
            norm_product = norm(vec1) * norm(vec2)
            if norm_product == 0:
                return 0.0
            return dot_product / norm_product
        elif self.distance_metric == "euclidean":
            # Euklidische Distanz
            return norm(np.array(vec1) - np.array(vec2))
        return 0.0
    
    def search(self, query_vector: List[float], k: int = 5, 
               threshold: Optional[float] = None) -> List[dict]:
        """
        Führt eine Ähnlichkeitssuche durch.
        
        Args:
            query_vector: Das Embedding der Nutzeranfrage
            k: Anzahl der zurückzugebenden Ergebnisse
            threshold: Mindestähnlichkeitsschwelle (0-1)
        
        Returns:
            Liste der k nächsten Nachbarn mit Metadaten
        """
        if not self.vectors:
            return []
        
        # Berechne Distanzen zu allen Vektoren
        distances = []
        for i, vector in enumerate(self.vectors):
            distance = self._calculate_distance(query_vector, vector)
            distances.append((i, distance))
        
        # Sortiere nach Distanz (absteigend für Kosinus-Ähnlichkeit)
        reverse = self.distance_metric == "cosine"
        distances.sort(key=lambda x: x[1], reverse=reverse)
        
        # Extrahiere Top-k Ergebnisse
        results = []
        for idx, score in distances[:k]:
            if threshold is not None:
                if reverse and score < threshold:
                    continue
                if not reverse and score > threshold:
                    continue
            
            result = {
                "score": float(score),
                "content": self.metadata[idx].get("content", ""),
                "source": self.metadata[idx].get("source", ""),
                "chunk_id": self.metadata[idx].get("chunk_id", idx)
            }
            results.append(result)
        
        return results
    
    def save(self, filepath: str):
        """Speichert den Vektorstore auf Disk."""
        data = {
            "vectors": self.vectors,
            "metadata": self.metadata,
            "distance_metric": self.distance_metric
        }
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False)
        print(f"✓ Vektorstore gespeichert: {filepath}")
    
    def load(self, filepath: str):
        """Lädt den Vektorstore von Disk."""
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
        self.vectors = data["vectors"]
        self.metadata = data["metadata"]
        self.distance_metric = data.get("distance_metric", "cosine")
        print(f"✓ Vektorstore geladen: {len(self.vectors)} Einträge")


class RAGRetriever:
    """Verbindet Embedding-Service mit Vektordatenbank für Retrieval."""
    
    def __init__(self, embeddings_client, vector_store: SimpleVectorStore):
        self.embeddings = embeddings_client
        self.vector_store = vector_store
    
    def retrieve(self, query: str, top_k: int = 5, 
                 min_score: float = 0.7) -> List[dict]:
        """
        Führt Retrieval für eine Nutzeranfrage durch.
        
        Args:
            query: Natürlichsprachliche Nutzeranfrage
            top_k: Anzahl der zurückzugebenden Kontextabschnitte
            min_score: Mindestähnlichkeitsscore
        
        Returns:
            Liste relevanter Kontextabschnitte mit Quellen
        """
        # 1. Anfrage vektorisieren
        query_embedding = self.embeddings.embed_query(query)
        
        # 2. Ähnlichkeitssuche in Vektordatenbank
        results = self.vector_store.search(
            query_vector=query_embedding,
            k=top_k,
            threshold=min_score if self.vector_store.distance_metric == "cosine" else None
        )
        
        return results


Beispiel: E-Commerce Produkt-RAG-System
print("=== E-Commerce RAG-System Demo ===\n")

Initialisiere Komponenten
vector_store = SimpleVectorStore(distance_metric="cosine")

Simulierte Produktdaten mit Chunks
products = [
    {"content
Verwandte Ressourcen
📚 KI API Tutorials
💰 Preise ansehen
📖 Entwickler-Dokumentation
🚀 Kostenlos registrieren
Verwandte Artikel
de holysheep zhucesongeduzenmeyongxinyonghuwanzhengzh 2026 0
de ai bianchengzhushou system prompt youhuarangdaimas 2026 0

Was ist ein RAG-System?

Phase 1: Dokumentparserung und Textzerlegung

Chunking-Strategie

Beispiel-Nutzung

Unterstützte Dokumentformate

Phase 2: Vektorisierung mit Embedding-Modellen

Embedding mit HolySheep AI

Initialisierung mit API-Key

Beispiel: Produktbeschreibungen vektorisieren

Generiere Embeddings

Nutzeranfrage vektorisieren

Embedding-Modellauswahl

Phase 3: Retrieval und Ähnlichkeitssuche

Vektordatenbank-Integration

Beispiel: E-Commerce Produkt-RAG-System

Initialisiere Komponenten

Simulierte Produktdaten mit Chunks

Verwandte Ressourcen

Verwandte Artikel

🔥 HolySheep AI ausprobieren