重新思考RAG的相关性：相似≠相关

创作时间:

作者:

@小白创作中心

重新思考RAG的相关性：相似≠相关

引用

来源

https://cloud.tencent.com/developer/article/2488233

TrustRAG项目地址：https://github.com/gomate-community/TrustRAG

可配置的模块化RAG框架

最近的研究发现，RAG（Retrieval-Augmented Generation）系统中的相关性问题远比想象的要复杂。无论是从数据检索的角度，还是从大模型对相关性的理解来看，RAG的表现都充满了挑战和机遇。

1. RAG 与相关性：不仅仅是向量嵌入

当我们谈论 RAG 时，很多人会立刻想到 向量嵌入 和 相似性度量 。确实，向量嵌入在 RAG 中扮演了重要角色，但 相关性 并不仅仅依赖于这些技术。 事实上，很多时候，传统的数据库查询和文本搜索已经足够解决问题 。 向量嵌入 虽然强大，但并不是万能的。

举个例子，假设你在开发一个基于 LLM 的医疗保健应用程序。你可能会发现，与“使用 LLM 构建医疗保健软件”相关的信息在向量空间中可能包括“用于诊断疾病的 AI”和“用于视频游戏开发的 AI”。虽然这些信息在向量空间中看起来“相似”，但它们实际上 缺乏关键的联系 。这就是为什么我们需要重新思考相关性的定义。

其实，我们早就开始用数据库和文本搜索了，而且用了好几十年，效果一直不错。大多数时候，用传统的方式查询数据反而更简单直接。 向量嵌入 当然也有它的用处，但说实话，很多时候你并不需要那么复杂的技术——你想要的数据其实并不难找。

那问题来了：如果数据真的很难找呢？这时候是不是就该用 vectorDB 了？答案是： 是，也不是 。因为这时候你真正面对的，其实是 相关性 的问题。

2. 相关性：超越表面相似性

相关性 不仅仅是表面上的相似性。它涉及到更深层次的上下文理解, “对人类有用的信息对 LLM 也有帮助” 。因此，我们需要构建一个能够理解上下文、提供真正有用信息的系统，而不是仅仅依赖于向量相似性。

研究发现， 添加不相关文档有时甚至能提高 RAG 系统的准确性 。这听起来有点反直觉，但背后的逻辑是： 不相关文档可能通过某种方式“激活”模型的推理能力 ，从而帮助它更好地理解问题。然而，这并不意味着我们可以随意添加不相关文档。 区分相关和非相关信息 仍然是 RAG 系统的核心挑战。

3. 数据量 vs. 效果：RAG 系统的双刃剑

QAnything提到的实验让我们对 RAG 系统的数据量问题有了新的认识。 数据越多，效果越好吗？ 这个问题看似简单，但答案却并不那么直接。

在 升学百科问答 的实验中，研究者发现，随着数据量的增加，RAG 系统的表现并非线性提升。 第一批数据加入后，问答正确率为 42.6% ，随着第二批数据的加入，正确率提升到了 60.2%。然而，当第三批数据加入后，正确率却 急剧下降了 8 个百分点 。这表明， 海量数据并不总是带来更好的效果 ，反而可能导致 检索退化 问题。

3.1 检索退化：相似 ≠ 相关

在实验中，一个典型的例子是“大连医科大学怎么样？”这个问题。在加入第三批数据之前，系统能够正确回答，但在加入第三批数据后，系统却错误地返回了与“大连理工大学”相关的信息。这是因为第三批数据中包含了与“大连理工大学”相关的句子，这些句子在向量空间中与“大连医科大学”非常相似，但实际上并不相关。

语义检索的核心矛盾在于：相似性 ≠ 相关性 。RAG 系统需要在有限的 LLM 输入 token 内，选择最相关的片段。如果检索到的片段虽然相似但不相关，就会导致回答错误。因此， 如何优化检索机制，确保最相关的片段被选中，是 RAG 系统设计中的关键挑战 。

4. 如何定义和衡量相关性？

那么， 如何定义相关性 ？这是一个复杂的问题。《How Easily do Irrelevant Inputs Skew the Responses of Large Language Models?》中提到了一些有趣的实验，研究者通过构建不同类型的信息（如 无关信息 、 部分相关的无关信息 和 相关但误导性的无关信息 ）来测试大模型对相关性的敏感性。

例如， 无关信息 可能与问题主题无关，但由于高相似性得分而被检索到。而 部分相关的无关信息 则包含与问题主题部分重叠的信息，但不提供问题的答案。这些实验表明， 大模型对相关性的理解与传统的检索系统并不完全一致 。我们需要更精细的方法来衡量和优化相关性。这篇论文有以下实验结论：

大模型更容易被语义高度相关但不相关的信息误导。
随着无关信息数量的增加，大模型识别真正相关信息的能力会降低。
大模型对无关信息的鲁棒性会随着问题格式的变化而变化。例如，自由格式的问题（如开放式问答）通常比多选 QA 格式更鲁棒。在多选 QA 格式中，模型可能会因为选项的干扰而选择不相关的答案。这说明，问题的设计方式也会影响模型对相关性的判断。

基于以上挑战，我们可以从以下几个方面优化相关性的衡量：