"Warum dauert das so lange?"
Diese Frage hören wir öfter. Jemand tippt eine Frage ein, drückt Enter – und wartet. Zwei Sekunden. Drei Sekunden. Manchmal zehn.
ChatGPT antwortet schneller. Das stimmt.
Aber ChatGPT macht auch etwas völlig anderes.
Der Unterschied ist simpel
Wenn Sie ChatGPT etwas fragen, passiert im Grunde nur eines: Die KI generiert eine Antwort. Frage rein, Antwort raus. Fertig in einer Sekunde.
Bei RAG passiert deutlich mehr.
Stellen Sie sich vor, jemand fragt Sie nach einem Rezept für Apfelkuchen. Sie könnten aus dem Gedächtnis antworten – schnell, aber vielleicht nicht ganz präzise. Oder Sie holen erst das Kochbuch, schlagen nach, lesen die Zutat-Liste, überprüfen die Mengen, und antworten dann. Das dauert länger. Aber die Antwort stimmt.
RAG macht genau das.
Was wirklich passiert
Wenn Sie KnowledgePilot eine Frage stellen, startet eine kleine Maschinerie.
Zuerst wird Ihre Frage in eine mathematische Darstellung umgewandelt. Das nennt sich Embedding. Klingt kompliziert, ist aber nur eine Art, Sprache in Zahlen zu übersetzen, damit Computer damit arbeiten können. Das dauert etwa 50 bis 200 Millisekunden.
Dann durchsucht das System Ihre Dokumente nach Passagen, die zur Frage passen. Nicht mit normaler Textsuche, sondern mit semantischer Suche – es versteht die Bedeutung, nicht nur die Wörter. Das dauert weitere 100 bis 500 Millisekunden, je nachdem, wie viele Dokumente Sie haben.
Die besten Treffer werden sortiert und zusammengestellt. Die relevantesten Textpassagen werden zu einem Kontext zusammengefügt – manchmal sind das 1.000 Wörter, manchmal 3.000.
Und dann erst kommt die KI ins Spiel. Sie bekommt Ihre Frage plus den gesamten Kontext und generiert die Antwort.
Der versteckte Zeitfresser
Das Problem ist der Kontext. Eine KI verarbeitet Text sequenziell. Jedes Wort, jeder Satz braucht Rechenzeit. Wenn Sie der KI 3.000 Wörter Kontext geben, muss sie all das verarbeiten, bevor sie überhaupt anfangen kann zu antworten.
Das ist, als würden Sie jemandem sagen: "Lies erst diese 10 Seiten, dann beantworte meine Frage." Natürlich dauert das länger, als wenn Sie einfach nur die Frage stellen.
Die meiste Zeit – etwa 50 bis 70 Prozent der Gesamtdauer – verbringt das System tatsächlich mit der Antwortgenerierung. Aber die vorherigen Schritte summieren sich. Embedding, Vektorsuche, Retrieval. Jeder Schritt fügt Millisekunden hinzu.
Und wenn unsere Server in Frankfurt stehen, Ihre Anfrage aber über verschiedene Rechenzentren läuft, kommt Netzwerklatenz dazu.
Der Trade-off
Wir könnten das beschleunigen. Weniger Kontext übergeben. Weniger Dokumente durchsuchen. Die KI einfach raten lassen.
Aber dann wären wir wieder bei ChatGPT. Schnell, aber unzuverlässig.
Wir haben uns für die andere Seite entschieden.
Eine korrekte Antwort in zehn Sekunden ist wertvoller als eine falsche Antwort in einer Sekunde. Zumindest für Unternehmenswissen, wo Fehler Konsequenzen haben. Die zusätzlichen Sekunden sind der Preis für Quellenbasierung. Für Nachprüfbarkeit. Für Zuverlässigkeit.
Das ist kein Bug. Das ist Design.
Was wir tun
Wir arbeiten ständig daran, schneller zu werden. Bessere Algorithmen für die Vektorsuche. Effizientere Embedding-Modelle. Intelligenteres Caching für häufige Fragen.
Aber wir werden nie so schnell sein wie ein nacktes LLM. Das ist auch nicht das Ziel.
Das Ziel ist, die richtige Antwort zu liefern. Schnell genug, dass es niemand als störend empfindet. Langsam genug, dass wir gründlich sein können. Ein paar Sekunden mehr für eine Antwort, auf die Sie sich verlassen können – das ist unser Trade-off.
Und den halten wir für fair.