Ein umfassendes Text-Embedding-Modell: Von text2vec, openai-ada-002 bis m3e, bge-CSDN-Blog

Inhalt

Einleitung

Dieser Artikel ist bereits der 31. technische Artikel zu großen Modellen in diesem Jahr.

  • Vor einem halben Jahr habe ich Blogs geschrieben, hauptsächlich aus persönlichem Interesse und Leserbedarf. * Nachdem unser Unternehmen im Q3 des Jahres 23 das LLM-Projektteam gegründet hat, wurde das Schreiben von Blogs zu einer Kombination aus persönlichem Interesse, Leserbedarf und Projektbedarf. So glücklich, Blogs zu schreiben, die alle drei Aspekte vereinen.

Ich und mein Unternehmen freuen uns sehr, durch Blogs, Kurse, interne Schulungen und Projekte mit Ihnen gemeinsam zu diskutieren, wie wir fortgeschrittene Big-Model-Technologien besser und schneller in die Geschäftsszenarien verschiedener Branchen integrieren können, um Tausende von Unternehmen in ihrer tatsächlichen Geschäftstätigkeit zu stärken.

Und dieser Artikel gehört zu Beginn zu dem Artikel "Wissensdatenbank-Fragen und Antworten zur Sekundärentwicklung von LangChain+LLM: Typische Probleme und ihre Lösungen bei kommerzieller Nutzung" im Abschnitt 1.2 (Der erste Entwurf dieses Abschnitts stammt von unserem LLM-Projektteam des dritten Projektteams), aber um das Text-Einbettungsmodell genauer und umfassender zu erläutern, wurde dieser Teil kontinuierlich verbessert und in diesen Artikel integriert.

Letztendlich ist es möglich, dass es im Vergleich zu anderen vorhandenen Online-Materialien detaillierter ist.

Erster Teil: Rangliste zur Bewertung der Textvektorrepräsentation: MTEB, C-MTEB

1.2 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》

Um festzustellen, welche Texteinbettungsmodelle in der Regel besser funktionieren, ist in der Regel ein Bewertungsmaßstab erforderlich, um Vergleiche anzustellen. "MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)" ist ein Benchmark für die Bewertung von massiven Texteinbettungsmodellen.

*论文地址:https://arxiv.org/abs/2210.07316 MTEB包含8个语义向量任务,涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试,建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。这表明该领域尚未集中在一个通用的文本嵌入方法上,并将其扩展到足以在所有嵌入任务上提供最先进的结果

1.2 Chinese Text Embedding Benchmark: C-MTEB

Von Chinese Massive Text Embedding Benchmark können Sie die neuesten Ranglisten für verschiedene Aufgaben im Zusammenhang mit dem Einbetten von umfangreichen chinesischen Texten einsehen. Es gibt separate Ranglisten für verschiedene Aufgabenszenarien.

Die Aufgabenliste umfasst:

  • Abrufen
  • STS
  • PairClassification
  • Klassifizierung
  • Neusortierung
  • Clustering

Dabei handelt es sich hauptsächlich um eine lokale Wissensspeicher-Aufgabe, bei der anhand der Embedding-Repräsentation der Abfragefrage in der Vektordatenbank ähnliche lokale Wissens-Textfragmente abgerufen werden. Daher handelt es sich in diesem Szenario hauptsächlich um eine Retrieval-Aufgabe. Die Rangliste der Retrieval-Aufgaben lautet wie folgt:

目前检索任务榜单下效果最好的是bge系列的bge-large-zh模型,langchain-chatchat项目中默认的m3e-base也处于比较靠前的位置

第二部分 Text-Einbettung-ada-002

2.1 Modell Einführung

text-embedding-ada-002是OpenAI提供的一个embedding模型,但需要调用接口付费使用。其具有如下特点:

  • Fähigkeit zur Vereinheitlichung: OpenAI hat durch die Kombination von fünf unabhängigen Modellen (Textähnlichkeit, Textsuche-Abfrage, Textsuche-Dokument, Codesuche-Text und Codesuche-Code) zu einem neuen Modell eine bessere Leistung in einer Reihe von verschiedenen Textsuchen, Satzähnlichkeiten und Codesuch-Benchmarks gezeigt. * Kontext: Der Kontext ist 8192 Zeichen lang, was die Verarbeitung langer Dokumente erleichtert. * Einbettungsgröße: Nur 1536 Dimensionen, ein Achtel der Einbettungsgröße von davinci-001, was die neue Einbettung kosteneffizienter bei der Verarbeitung von Vektordatenbanken macht.

2.2 Modellverwendung

Zusammenfassen
Der Artikel beschreibt die Bedeutung von Texteinbettungsmodellen und stellt zwei wichtige Benchmarks vor: MTEB und C-MTEB. MTEB ist ein Benchmark für Texteinbettungsmodelle, das 8 semantische Vektoraufgaben, 58 Datensätze und 112 Sprachen umfasst. Es zeigt, dass es keine spezifische Methode gibt, die in allen Aufgaben führend ist. C-MTEB ist ein chinesischer Benchmark für Texteinbettungsaufgaben, der verschiedene Aufgaben wie Retrieval, STS, PairClassification, Classification, Reranking und Clustering umfasst. Der Artikel erwähnt auch das Texteinbettungsmodell text-embedding-ada-002 von OpenAI, das eine verbesserte Leistung in verschiedenen Textsuch- und Ähnlichkeitsaufgaben bietet. Darüber hinaus wird das M3E-Modell vorgestellt, das auf in-Batch-Negativabtastung und konformen Anweisungsdatensätzen basiert und auf dem Roberta-Modell trainiert ist.