ColBERTv2: 通过轻量级后期交互实现高效检索

内容

摘要:神经信息检索(IR)极大地推动了搜索和其他知识密集型语言任务的发展。虽然许多神经IR方法将查询和文档编码为单向量表示,但后期交互模型在每个标记的粒度上生成多向量表示,并将相关性建模分解为可扩展的标记级计算。已经证明这种分解使后期交互更加有效,但它使这些模型的空间占用量增加了一个数量级。在这项工作中,我们介绍了ColBERTv2,这是一种检索器,它将激进的残差压缩机制与去噪监督策略相结合,以同时提高后期交互的质量和空间占用量。我们在广泛的基准测试中评估了ColBERTv2,在训练领域内外建立了最先进的质量,同时将后期交互模型的空间占用量减少了6-10倍。

From: Omar Khattab 查看电子邮件
v1 2021年12月2日 18:38:50 UTC(570 KB)
v2 2021年12月16日 05:34:49 UTC(573 KB)
[v3] 2022年7月10日 17:28:51 UTC(627 KB)

总结
这篇文章介绍了ColBERTv2,一种结合了压缩机制和去噪监督策略的检索器,能够同时提高late interaction模型的质量和减少空间占用。ColBERTv2在广泛的基准测试中表现出色,不仅在训练领域内外取得了最先进的质量,还将late interaction模型的空间占用减少了6-10倍。