Aufbau eines effizienten RAG-Systems: Teil 2 | Jiayuan (Forrest)

Inhalt

devv.ai ist, wie ein effizientes RAG-System aufgebaut wird, Teil 2 dieser Serie wird devv.ai teilen die Erfahrungen hinter dem Aufbau des gesamten Retrieval Augmented Generation Systems, einschließlich einiger Praktiken in der Produktionsumgebung. Dies ist der zweite Teil der Serie und das Thema ist 'Wie man ein RAG-System bewertet'.

Im vorherigen Abschnitt haben wir besprochen, was ein RAG-System ist und aus welchen grundlegenden Elementen es besteht. Hier ist eine kurze Wiederholung. Ein grundlegendes RAG-System besteht aus den folgenden 3 Teilen: 1. Sprachmodell 2. Sammlung externen Wissens 3. Externes Wissen, das für den aktuellen Kontext benötigt wird

Um das gesamte System zu optimieren, können Sie das Problem in die Optimierung jedes Teils dieses Systems aufteilen. Die Schwierigkeit bei der Optimierung eines auf LLM basierenden Systems liegt jedoch darin, dass dieses System im Wesentlichen eine Blackbox ist, für die es keine wirksamen Bewertungsmethoden gibt. Ohne selbst die grundlegendsten Benchmarks ist es nur leeres Gerede, wie man die entsprechenden Kennzahlen verbessern kann.

Also das erste, was wir tun müssen, ist ein Bewertungssystem für das gesamte RAG-System aufzubauen. Dies ist die Hauptaufgabe des Artikels von Stanford, der die Verifizierbarkeit von generativen Suchmaschinen bewertet. Evaluating Verifiability in Generative Search Engines arxiv.org/abs/2304.09848

Dieser Artikel ist zwar zur Bewertung von Generative Search Engine (generativer Suchmaschine) geschrieben, aber die darin enthaltenen Methoden können auch auf RAG angewendet werden. Im Wesentlichen ist Generative Search Engine eine Untermenge von RAG, ebenso wie RAG-Systeme, die auf spezifische Datensätze zugeschnitten sind.

Der Artikel erwähnt eine wichtige Voraussetzung für eine vertrauenswürdige Generative Search Engine: Verifizierbarkeit (verifiability). Wir alle wissen, dass LLM oft ernsthaften Unsinn (Halluzinationen) erzählt und Inhalte generiert, die scheinbar richtig, aber tatsächlich falsch sind. Ein Vorteil von RAG ist es, dem Modell Referenzmaterial zur Verfügung zu stellen, um die Wahrscheinlichkeit von Halluzinationen zu verringern.

Zusammenfassen
Der Artikel beschreibt, wie man ein RAG-System (Retrieval Augmented Generation System) bewertet und optimiert. Ein RAG-System besteht aus einem Sprachmodell, einer externen Wissenssammlung und dem benötigten externen Wissen für den aktuellen Kontext. Die Evaluierung eines RAG-Systems ist schwierig, da es sich im Wesentlichen um eine Blackbox handelt. Eine Möglichkeit zur Bewertung ist die Verifiabilität, die angibt, wie gut die generierten Inhalte durch externe Quellen unterstützt werden. Ein ideales RAG-System sollte eine hohe Zitationsrückrufquote und Zitationsgenauigkeit aufweisen. Die Evaluierungsmethoden umfassen die Bewertung der Flüssigkeit und Nützlichkeit der generierten Inhalte sowie die Messung der Zitationsrückrufquote und Zitationsgenauigkeit. Die Verifiabilität wird durch den Citation F-Wert bewertet. Die Autoren des Artikels haben auch praktische Erfahrungen bei der Anwendung dieser Bewertungsmethoden geteilt, einschließlich der Auswahl von Bewertungssätzen und der Implementierung eines automatisierten Bewertungsrahmens.