资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

RAG技术详解：如何提升大语言模型的准确性和可靠性

创作时间:

作者:

@小白创作中心

RAG技术详解：如何提升大语言模型的准确性和可靠性

引用

CSDN

https://blog.csdn.net/weixin_47776321/article/details/141318693

随着大语言模型（LLM）的快速发展，如何提高模型的准确性和可靠性成为了一个重要课题。检索增强生成（RAG）技术通过引入外部知识库，为大语言模型提供了更强大的信息检索和生成能力。本文将详细介绍RAG的核心概念、工作流程以及与微调技术的对比分析，帮助读者全面了解这一前沿技术。

一、RAG定义

大型语言模型（LLM）相较于传统的语言模型具有更强大的能力，然而在某些情况下，它们仍可能无法提供准确的答案。为了解决大型语言模型在生成文本时面临的一系列挑战，提高模型的性能和输出质量，研究人员提出了一种新的模型架构：检索增强生成（RAG, Retrieval-Augmented Generation）。该架构巧妙地整合了从庞大知识库中检索到的相关信息，并以此为基础，指导大型语言模型生成更为精准的答案，从而显著提升了回答的准确性与深度。
检索增强生成（Retrieval Augmented Generation,RAG）通过引入外部知识，使大模型能够生成准确且符合上下文的答案，同时能够减少模型幻觉的出现。由于RAG简单有效，它已经成为主流的大模型应用方案之一。

二、解决的问题

信息偏差/幻觉： LLM 有时会产生与客观事实不符的信息，导致用户接收到的信息不准确。RAG 通过检索数据源，辅助模型生成过程，确保输出内容的精确性和可信度，减少信息偏差。
知识更新滞后性： LLM 基于静态的数据集训练，这可能导致模型的知识更新滞后，无法及时反映最新的信息动态。RAG 通过实时检索最新数据，保持内容的时效性，确保信息的持续更新和准确性。
内容不可追溯： LLM 生成的内容往往缺乏明确的信息来源，影响内容的可信度。RAG 将生成内容与检索到的原始资料建立链接，增强了内容的可追溯性，从而提升了用户对生成内容的信任度。
领域专业知识能力欠缺： LLM 在处理特定领域的专业知识时，效果可能不太理想，这可能会影响到其在相关领域的回答质量。RAG 通过检索特定领域的相关文档，为模型提供丰富的上下文信息，从而提升了在专业领域内的问题回答质量和深度。
推理能力限制： 面对复杂问题时，LLM 可能缺乏必要的推理能力，这影响了其对问题的理解和回答。RAG 结合检索到的信息和模型的生成能力，通过提供额外的背景知识和数据支持，增强了模型的推理和理解能力。
应用场景适应性受限： LLM 需在多样化的应用场景中保持高效和准确，但单一模型可能难以全面适应所有场景。RAG 使得 LLM 能够通过检索对应应用场景数据的方式，灵活适应问答系统、推荐系统等多种应用场景。
长文本处理能力较弱： LLM 在理解和生成长篇内容时受限于有限的上下文窗口，且必须按顺序处理内容，输入越长，速度越慢。RAG 通过检索和整合长文本信息，强化了模型对长上下文的理解和生成，有效突破了输入长度的限制，同时降低了调用成本，并提升了整体的处理效率。

三、步骤

如下图所示，RAG通常包括以下三个基本步骤：

索引：将文档库分割成较短的Chunk，即文本块或文档片段，然后构建成向量索引。

检索：计算问题和 Chunks 的相似度，检索出若干个相关的 Chunk。

生成：将检索到的Chunks作为背景信息，生成问题的回答。

四、工作流程

4.1 数据处理阶段

对原始数据进行清洗和处理。
将处理后的数据转化为检索模型可以使用的格式。
将处理后的数据存储在对应的数据库中。

4.2 检索阶段

将用户的问题输入到检索系统中，从数据库中检索相关信息。

4.3 增强阶段

对检索到的信息进行处理和增强，以便生成模型可以更好地理解和使用。

4.4 生成阶段

将增强后的信息输入到生成模型中，生成模型根据这些信息生成答案。

五、RAG链路

从下图可以看到，线上接收到用户**
query
后，RAG会先进行检索，然后将检索到的
Chunks
和
query
**一并输入到大模型，进而回答用户的问题。

为了完成检索，需要离线将文档（ppt、word、pdf等）经过解析、切割甚至OCR转写，然后进行向量化存入数据库中。

（图片来源：GitHub - netease-youdao/QAnything: Question and Answer based on Anything.）

5.1 离线计算

首先，知识库中包含了多种类型的文件，如pdf、word、ppt等，这些
文档
（Documents）需要提前被解析，然后切割成若干个较短的
Chunk
，并且进行清洗和去重。

由于知识库中知识的数量和质量决定了RAG的效果，因此这是非常关键且必不可少的环节。

然后，我们会将知识库中的所有
Chunk
都转成向量，这一步也称为
向量化
（Vectorization）或者
索引
（Indexing）。

向量化
需要事先构建一个
向量模型
（Embedding Model），它的作用就是将一段
Chunk
转成
向量
（Embedding）。如下图所示：

一个好的向量模型，会使得具有相同语义的文本的向量表示在语义空间中的距离会比较近，而语义不同的文本在语义空间中的距离会比较远。

由于知识库中的所有
Chunk
都需要进行
向量化
，这会使得计算量非常大，因此这一过程通常是离线完成的。

随着新知识的不断存储，向量的数量也会不断增加。这就需要将这些向量存储到
数据库
（DataBase）中进行管理，例如Milvus中。

5.2 在线计算

在实际使用RAG系统时，当给定一条用户
查询
（Query），需要先从知识库中找到所需的知识，这一步称为
检索
（Retrieval）。

在
检索
过程中，用户查询首先会经过向量模型得到相应的向量，然后与
数据库
中所有
Chunk
的向量计算相似度，最简单的例如
余弦相似度
，然后得到最相近的一系列
Chunk
。

由于向量相似度的计算过程需要一定的时间，尤其是
数据库
非常大的时候。

这时，可以在检索之前进行
召回
（Recall），即从
数据库
中快速获得大量大概率相关的
Chunk
，然后只有这些
Chunk
会参与计算向量相似度。这样，计算的复杂度就从整个知识库降到了非常低。

召回
步骤不要求非常高的准确性，因此通常采用简单的基于字符串的匹配算法。由于这些算法不需要任何模型，速度会非常快，常用的算法有
TF-IDF
，
BM25
等。

另外，也有很多工作致力于实现更快的
向量检索
，例如faiss，annoy。

另一方面，人们发现，随着知识库的增大，除了检索的速度变慢外，检索的效果也会出现退化，如下图中绿线所示：

（图片来源：GitHub - netease-youdao/QAnything: Question and Answer based on Anything.）

这是由于
向量模型
能力有限，而随着知识库的增大，已经超出了其容量，因此准确性就会下降。在这种情况下，相似度最高的结果可能并不是最优的。为了解决这一问题，提升RAG效果，研究者提出增加一个二阶段检索——
重排
(Rerank)，即利用
重排模型
（Reranker），使得越相似的结果排名更靠前。这样就能实现准确率稳定增长，即数据越多，效果越好（如上图中紫线所示）。

通常，为了与
重排
进行区分，一阶段检索有时也被称为
精排
。而在一些更复杂的系统中，在
召回
和
精排
之间还会添加一个
粗排
步骤，这里不再展开，感兴趣的同学可以自行搜索。

综上所述，在整个
检索
过程中，计算量的顺序是
召回

精排

重排
，而检索效果的顺序则是
召回
<
精排
<
重排
。

当这一复杂的
检索
过程完成后，我们就会得到排好序的一系列
检索文档
（Retrieval Documents）。然后我们会从其中挑选最相似的
k
个结果，将它们和用户查询拼接成prompt的形式，输入到大模型。最后，大型模型就能够依据所提供的知识来生成回复，从而更有效地解答用户的问题。

至此，一个完整的RAG链路就构建完毕了。

六、开发框架

6.1 LangChain

6.1.1 简介

该框架利用 OpenAI 提供的 API 或者私有化模型，来开发基于大型语言模型的应用程序。旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。

LangChain 框架是一个开源工具，充分利用了大型语言模型的强大能力，以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口，从而简化应用程序的开发流程。具体来说，LangChain 框架可以实现数据感知和环境互动，也就是说，它能够让语言模型与其他数据来源连接，并且允许语言模型与其所处的环境进行互动。