전언
本文已经是今年的第31篇大模型相关的技术文章了,如果说
- 반년 전에 블로그를 쓸 때는 주로 개인적인 흥미와 독자의 요구 때문이었습니다.
- 그러나 우리 회사가 23년 Q3에 LLM 프로젝트 팀을 구성한 이후, 블로그를 쓰는 것은 개인적인 흥미 + 독자의 요구 + 프로젝트의 필요로 변모했습니다. 이렇게 세 가지가 모두 갖춰지는 것은 정말로 블로그를 쓰는 것에 대한 행운이었습니다.
저와 저희 회사는 블로그, 강의, 내부 교육, 프로젝트를 통해 선진 대형 모델 기술을 다양한 산업의 업무 상황에 더 나은 방식으로 빠르게 적용하는 방법에 대해 함께 논의하는 것에 매우 기쁨을 느낍니다. 이를 통해 수많은 기업의 실제 업무에 도움을 주고 있습니다.
而本文一开始是属于:因我司第三项目组「知识库问答项目」而起的此文《知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案》中的1.2节(该1.2节初稿来自我司LLM项目团队第三项目组的bingo),但为把Text Embedding模型阐述的更为精准、全面,特把那部分的内容抽取出来,不断完善成此文
최종적으로 가능한 한 인터넷에 이미 있는 다른 자료들보다 더 세부적으로 되었습니다.
제1부 텍스트 벡터 표현 효과를 측정하는 랭킹: MTEB, C-MTEB
1.2 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》
判断哪些文本嵌入模型效果较好,通常需要一个评估指标来进行比较,《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准
- 论文地址:https://arxiv.org/abs/2210.07316 MTEB包含8个语义向量任务,涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试,建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。这表明该领域尚未集中在一个通用的文本嵌入方法上,并将其扩展到足以在所有嵌入任务上提供最先进的结果
- github地址:https://github.com/embeddings-benchmark/mteb#leaderboard