百度｜从稀疏表征出发、召回方向的前沿探索

作者 | lhy12138

目前百度大搜主要有基于稀疏表征的倒排检索和稠密表征的语义检索双路召回。随着深度学习技术的发展，语义检索的召回效果得到了显著提高；与此同时，因为稀疏表征有着精确匹配、索引效率和可解释的优势，最近学术界重新将目光放回稀疏表征架构，研究稀疏表征如何从大规模语言模型中获益。本文将介绍学术界在倒排召回和语义召回的最新进展。

全文6386字，预计阅读时间16分钟。

一、搜索中的召回

召回一般会从海量候选库中选择与query相关的文档送给上层排序模块，因为效率原因，往往无法执行query-url细粒度交互。目前召回主要有基于term的传统倒排召回和基于向量表征的语义召回。本文将介绍两个方向在学术届的一些最新进展。

二、如何看待语义召回和传统倒排召回的关系？

随着预训练模型和样本技术的更新，语义召回表现了强大的检索效果，而传统倒排技术因为成本、效率问题并没有获得效果的显著提高。倒排召回基于term归并，因此具有较强的可解释性；而语义召回在向量空间搜索与query语义最相似的文档，对语义的表达能力更强。应该如何看待两者在召回链路上的关系呢？

Are We There Yet? A Decision Framework for Replacing Term Based Retrieval with Dense Retrieval Systems

这篇论文提出了一套框架，包括一组指标（不仅从效果出发），彻底比较两个检索系统。

主要标准 （效果/成本）以及 次要标准 （robustness）：

次要标准：子问题集合的效果（如长度在某个范围的q、频率在某个范围的q、lexical匹配的能力、模型的泛化能力、决策显著差异比例、甚至是系统可维护性、未来迭代空间、成本）

最终论文在一个检索评估集上给出了相应的结论：即在向量化成本可接受的前提下，语义召回系统可以替代倒排召回系统。而在实际工业界对应的问题往往更为复杂，但论文提出的分析框架正是我们需要重新审视和思考的内容。

BEIR: A heterogenous benchmark for zero-shot evaluation of information retrieval models

这篇论文对学术界现有检索相关数据集进行汇总，从各个领域汇总了不同下游任务中对检索能力的需求，以全面地评估现有召回模型的效果。

98cfad3c1f574243b3ee206a14426abd.webp-imageStyle

75f79f9e57694b78be32fbdf4cebc045.webp-imageStyle

从表格可以看到一些有意思的结论：在zero-shot的场景下，BM25是一个非常健壮的检索系统。基于term细粒度语义交互的两种方法（colbert/BM25+CE）仍然表现了一致的优越性。但稀疏表征和稠密表征的双塔模型似乎表现不佳。同时观察到doc2query是一个稳定的提升，因为它只会扩展词，更像是对BM25的合理性改动，检索方式和打分逻辑与BM25一致。

同时作者也提到，数据集存在词汇偏差问题：标注候选来自于BM25检索，因此可能对不依赖词汇匹配的模型存在好结果的漏标注问题，对新召回结果标注后：

f857a2f100804390b59ddabb1197e205.webp-imageStyle

其中语义召回模型（如ANCE）指标显著提高。

通过以上两篇论文发现，不管是倒排召回还是语义召回在不同场景下有着自己独立的优势，因此我们在后文会针对两个方向分别介绍相关进展。

三、倒排召回新发展

如果想通过现有技术促进倒排发展，我们有哪些可以尝试的方案？

最新进展：

可学习的稀疏表征（将query分析、doc理解以及检索匹配融合成端到端任务，但以稀疏向量分别表示query和doc），仍然依托倒排的检索方式，因此保留倒排的优势（可解释、term匹配能力强），同时进一步提升语义泛化能力。

SPLADE: Sparse lexical and expansion model for first stage ranking

稀疏表征：用整个词表重新描述doc，同时实现对term weight和term expansion。

6cb7b426c3cb41cea2eab30ee111933d.webp-imageStyle

可以看到，最终每个文档被描述为term和score的形式，同时会删除文档已有冗余词和增加相应扩展词。

稀疏表征和预训练任务中mask language model任务很像，将每个token经过transformer表示后最终还原到词表信息中，因此稀疏表征复用了mlm任务的head。

通过汇总（pooling）原始query/doc中的所有稀疏表示，将query/doc表示成一个词表维度的稀疏向量，并且引入flops正则来控制扩展term的数量。同时在稀疏表征的基础上通过点积的形式计算q-u匹配得分。

最终loss表示为常见的in-batch CE loss和相应flops正则loss。

0c77bcd5e52649b291b7d53186a01860.webp-imageStyle

From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective

本文是验证在稠密表征（对应上文提到的语义召回模型）下提出的各种优化思路是否可以迁移到稀疏表征中：

包括：蒸馏技术（margin-mse）、难样本挖掘技术（单塔挖掘hard-neg）和预训练技术（cocondenser强化cls能力）。

fb2025e96931423f92a5674d5fc751c2.webp-imageStyle

最终通过实验证明了，多种方法均可迁移到稀疏表征场景下。

SpaDE: Improving Sparse Representations using a Dual Document Encoder for First-stage Retrieval

出发点：相比统一建模term weight和term expansion，采用双编码器独立建模，同时提出联合训练策略来彼此促进。

09a5dc68a7ee4069861ac0d9a52bbfae.webp-imageStyle

将整个模型结构拆分三部分：

query端：为了提高query端inference效率问题，只采用了分词器，即仅有one-hot信息。

doc端term weight模块：预测term的权重。

9bae4dbab55448b3afed120f5d65c9c0.webp-imageStyle

doc端term expansion模块：预测top-k扩展词及权重。

最终汇总doc端的整体稀疏表征：

同时提出了协同训练策略：

作者观察到联合训练（先获得最终merge的表征vd后直接进行训练）几乎没能带来效果的增益。

因此模型采用协同训练方式：

2f38828f87c443e1b0628c947df23e2e.webp-imageStyle

热启阶段 ：使用不同的目标函数独立训练两个doc端编码器。

term weight ：正常的in-batch loss来刻画query和doc的相关性分数。

term expansion：因为query没有进行扩展，因此如果doc未能扩展出query词则对应query

词不会获得相关性分数，因此期望扩展词尽可能扩展到query且尽量不要扩展非query词。

因此增加了单独的约束项，在标准召回loss的基础上，强化了query稀疏表征和doc稀疏表征在词命中上的能力，尽可能的要求doc能扩展出query所需的扩展词。

e31e398a7d1d43a6aef6878fc44bd346.webp-imageStyle

finetune阶段 ：每个编码器为对方提供topr%的大损失样本，强化互补性。（权重模型的大损失样本可能是词汇不匹配，而扩展模型的大损失样本可能是当前模型对weight刻画较差）

c8584601bb174cac8f18c6aca050b0e5.webp-imageStyle

LexMAE: Lexicon-Bottlenecked Pretraining for Large-Scale Retrieval.

出发点：认为MLM并不适合做稀疏表示，mlm倾向于为低熵的单词分配高分，而稀疏表示能希望关注对语义重要的高熵词。（mlm 的loss更极端一些，只去预测原词，且更容易mask到低熵词，而稀疏表征则希望这个预测的值更soft以体现term重要性+扩展词能力）

因此提出了以下框架，包括三个组件：

Encoder（BERT）
词典瓶颈模块
弱mask解码器

be22b61975324990bd1bb53eecdea18d.webp-imageStyle

Encoder：输入文本经过一定比例mask后，在MLM-head的输出即为稀疏表征。

词典瓶颈模块：利用doc的稀疏表征a来获得句子稠密表征b。

本文地址：百度｜从稀疏表征出发、召回方向的前沿探索
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

其中W是原始BERTword embedding表示。

弱mask解码器：利用稠密表征b来还原mask信息，用b替换CLS，通过两层decoder还原被mask的词。（希望稀疏表征承担CLS相应的信息能力，在预训练阶段强化稀疏表征的表达能力。）

3cbd3cee09a240ce87999948d96cdf39.webp-imageStyle

四、语义召回新发展

语义召回虽然具有强大的语义能力，但在实践中仍然存在以下几类问题（包括但不限于）：

单表征信息表达能力弱。
无法对精确匹配进行建模。
多表征如何保证表征的有效性

单表征信息压缩问题：

Simlm: Pre-training with representation bottleneck for dense passage retrieval.

减少预训练和finetune的不一致，提高样本效率，希望cls尽可能编码doc中的信息。

1.随机mask两遍原始序列，利用生成器还原两个新的序列。

2.对于enc序列，利用多层transformer编码，获得句子级别CLS表示，其中loss约束为当前词是否发生过替换。

3.对于dec序列，使用2层transformer编码编码整个序列及enc序列的句子表示，同样loss约束为当前词是否发生过替换。

d6fc1d85e59541438d920f173174a580.webp-imageStyle

由于dec序列仅使用2层transformer，因此迫使句子级别cls信号需要捕捉原始enc序列更多的语义信息。

95835507be9841588009bca99d6b15f8.webp-imageStyle

精确匹配问题：

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?

出发点：dense retrieval在词语匹配和低频实体不如稀疏方法，希望能具有稀疏模型的词汇匹配能力，模拟稀疏retrieval。

思想：利用稀疏teacher蒸馏到dense retrieval（模仿模型），再和正常的dense retrieval concat。

1b5c07446bbf4370a6bfaa455e1d6d5b.webp-imageStyle

实践经验：

稀疏teacher蒸馏到模仿模型时，mse和kl loss未能起作用。最终使用稀疏teacher来生成pos和neg，使用常规对比损失来做样本级蒸馏而非soft-label蒸馏效果更佳。
同时尝试将模仿作为dense的热启模型，但效果一般，因此选择两个表示联合训练，尝试了求和/concat以及freeze模仿模型只更新dense模型和加权系数的方案。