摘要:神经信息检索(IR)极大地推动了搜索和其他知识密集型语言任务的发展。虽然许多神经IR方法将查询和文档编码为单向量表示,但后期交互模型在每个标记的粒度上生成多向量表示,并将相关性建模分解为可扩展的标记级计算。已经证明这种分解使后期交互更加有效,但它使这些模型的空间占用量增加了一个数量级。在这项工作中,我们介绍了ColBERTv2,这是一种检索器,它将激进的残差压缩机制与去噪监督策略相结合,以同时提高后期交互的质量和空间占用量。我们在广泛的基准测试中评估了ColBERTv2,在训练领域内外建立了最先进的质量,同时将后期交互模型的空间占用量减少了6-10倍。