一文通透Text Embedding模型：从text2vec、openai-ada-002到m3e、bge-CSDN博客

전언

本文已经是今年的第31篇大模型相关的技术文章了，如果说

반년 전에 블로그를 쓸 때는 주로 개인적인 흥미와 독자의 요구 때문이었습니다.
그러나 우리 회사가 23년 Q3에 LLM 프로젝트 팀을 구성한 이후, 블로그를 쓰는 것은 개인적인 흥미 + 독자의 요구 + 프로젝트의 필요로 변모했습니다. 이렇게 세 가지가 모두 갖춰지는 것은 정말로 블로그를 쓰는 것에 대한 행운이었습니다.

저와 저희 회사는 블로그, 강의, 내부 교육, 프로젝트를 통해 선진 대형 모델 기술을 다양한 산업의 업무 상황에 더 나은 방식으로 빠르게 적용하는 방법에 대해 함께 논의하는 것에 매우 기쁨을 느낍니다. 이를 통해 수많은 기업의 실제 업무에 도움을 주고 있습니다.

而本文一开始是属于：因我司第三项目组「知识库问答项目」而起的此文《知识库问答LangChain+LLM的二次开发：商用时的典型问题及其改进方案》中的1.2节(该1.2节初稿来自我司LLM项目团队第三项目组的bingo)，但为把Text Embedding模型阐述的更为精准、全面，特把那部分的内容抽取出来，不断完善成此文

최종적으로 가능한 한 인터넷에 이미 있는 다른 자료들보다 더 세부적으로 되었습니다.

제1부 텍스트 벡터 표현 효과를 측정하는 랭킹: MTEB, C-MTEB

1.2 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》

判断哪些文本嵌入模型效果较好，通常需要一个评估指标来进行比较，《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准

论文地址：https://arxiv.org/abs/2210.07316 MTEB包含8个语义向量任务，涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试，建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。这表明该领域尚未集中在一个通用的文本嵌入方法上，并将其扩展到足以在所有嵌入任务上提供最先进的结果
github地址：https://github.com/embeddings-benchmark/mteb#leaderboard

榜单地址：https://huggingface.co/spaces/mteb/leaderboard

전언

제1부 텍스트 벡터 표현 효과를 측정하는 랭킹: MTEB, C-MTEB

1.2 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》

1.2 중국어 대량 텍스트 임베딩 작업 랭킹: C-MTEB