devv.ai ist, wie ein effizientes RAG-System aufgebaut wird, Teil 2 dieser Serie wird devv.ai teilen die Erfahrungen hinter dem Aufbau des gesamten Retrieval Augmented Generation Systems, einschließlich einiger Praktiken in der Produktionsumgebung. Dies ist der zweite Teil der Serie und das Thema ist 'Wie man ein RAG-System bewertet'.
Im vorherigen Abschnitt haben wir besprochen, was ein RAG-System ist und aus welchen grundlegenden Elementen es besteht. Hier ist eine kurze Wiederholung. Ein grundlegendes RAG-System besteht aus den folgenden 3 Teilen: 1. Sprachmodell 2. Sammlung externen Wissens 3. Externes Wissen, das für den aktuellen Kontext benötigt wird
Um das gesamte System zu optimieren, können Sie das Problem in die Optimierung jedes Teils dieses Systems aufteilen. Die Schwierigkeit bei der Optimierung eines auf LLM basierenden Systems liegt jedoch darin, dass dieses System im Wesentlichen eine Blackbox ist, für die es keine wirksamen Bewertungsmethoden gibt. Ohne selbst die grundlegendsten Benchmarks ist es nur leeres Gerede, wie man die entsprechenden Kennzahlen verbessern kann.
Also das erste, was wir tun müssen, ist ein Bewertungssystem für das gesamte RAG-System aufzubauen. Dies ist die Hauptaufgabe des Artikels von Stanford, der die Verifizierbarkeit von generativen Suchmaschinen bewertet. Evaluating Verifiability in Generative Search Engines arxiv.org/abs/2304.09848
Dieser Artikel ist zwar zur Bewertung von Generative Search Engine (generativer Suchmaschine) geschrieben, aber die darin enthaltenen Methoden können auch auf RAG angewendet werden. Im Wesentlichen ist Generative Search Engine eine Untermenge von RAG, ebenso wie RAG-Systeme, die auf spezifische Datensätze zugeschnitten sind.
Der Artikel erwähnt eine wichtige Voraussetzung für eine vertrauenswürdige Generative Search Engine: Verifizierbarkeit (verifiability). Wir alle wissen, dass LLM oft ernsthaften Unsinn (Halluzinationen) erzählt und Inhalte generiert, die scheinbar richtig, aber tatsächlich falsch sind. Ein Vorteil von RAG ist es, dem Modell Referenzmaterial zur Verfügung zu stellen, um die Wahrscheinlichkeit von Halluzinationen zu verringern.