一文通透Text Embedding模型:从text2vec、openai-ada-002到m3e、bge-CSDN博客

콘텐츠

전언

本文已经是今年的第31篇大模型相关的技术文章了,如果说

  • 반년 전에 블로그를 쓸 때는 주로 개인적인 흥미와 독자의 요구 때문이었습니다.
  • 그러나 우리 회사가 23년 Q3에 LLM 프로젝트 팀을 구성한 이후, 블로그를 쓰는 것은 개인적인 흥미 + 독자의 요구 + 프로젝트의 필요로 변모했습니다. 이렇게 세 가지가 모두 갖춰지는 것은 정말로 블로그를 쓰는 것에 대한 행운이었습니다.

저와 저희 회사는 블로그, 강의, 내부 교육, 프로젝트를 통해 선진 대형 모델 기술을 다양한 산업의 업무 상황에 더 나은 방식으로 빠르게 적용하는 방법에 대해 함께 논의하는 것에 매우 기쁨을 느낍니다. 이를 통해 수많은 기업의 실제 업무에 도움을 주고 있습니다.

而本文一开始是属于:因我司第三项目组「知识库问答项目」而起的此文《知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案》中的1.2节(该1.2节初稿来自我司LLM项目团队第三项目组的bingo),但为把Text Embedding模型阐述的更为精准、全面,特把那部分的内容抽取出来,不断完善成此文

최종적으로 가능한 한 인터넷에 이미 있는 다른 자료들보다 더 세부적으로 되었습니다.

제1부 텍스트 벡터 표현 효과를 측정하는 랭킹: MTEB, C-MTEB

1.2 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》

判断哪些文本嵌入模型效果较好,通常需要一个评估指标来进行比较,《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准

  • 论文地址:https://arxiv.org/abs/2210.07316 MTEB包含8个语义向量任务,涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试,建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。这表明该领域尚未集中在一个通用的文本嵌入方法上,并将其扩展到足以在所有嵌入任务上提供最先进的结果
  • github地址:https://github.com/embeddings-benchmark/mteb#leaderboard

1.2 중국어 대량 텍스트 임베딩 작업 랭킹: C-MTEB

요약하다
本文介绍了MTEB和C-MTEB两个文本向量表示效果的榜单,以及OpenAI提供的text-embedding-ada-002模型和m3e模型。MTEB包含8个语义向量任务,涵盖58个数据集和112种语言,而C-MTEB则是针对中文海量文本embedding的各项任务的排行榜。text-embedding-ada-002是OpenAI提供的一个embedding模型,具有统一能力、上下文长度为8192和嵌入尺寸为1536个维度的特点。而m3e模型使用了in-batch负采样的对比学习的方式在句对数据集进行训练,并使用了指令数据集,基于Roberta系列模型进行训练。