资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

RAG实操教程：langchain+Milvus向量数据库创建你的本地知识库

创作时间:

作者:

@小白创作中心

RAG实操教程：langchain+Milvus向量数据库创建你的本地知识库

引用

CSDN

https://blog.csdn.net/2401_85782938/article/details/139804606

本篇文章是Milvus向量数据库学习的总结篇，主要介绍如何打造自己的知识库系统。文章详细讲解了RAG（Retrieval-Augmented Generation）的概念、原理及其在LLM（Large Language Model）中的应用，并重点介绍了如何使用langchain和Milvus向量数据库来创建本地知识库。

RAG是什么

RAG是retrieval-augmented-generation的缩写，翻译为中文的意思是检索增强。其目的是基于最新、最准确的数据建立LLM的语料知识库。

LLM有哪些痛点

我们知道LLM的知识库是通过现有的网络公开的数据作为数据源来训练的，现在公开的很多模型他们基于的训练数据会比我们现在网络上公开的数据早很多，那自然就会产生一种问题，网络上最新的数据和知识LLM是不知道的。还有一种情况就是很多企业他们对自己的数据的安全做的很好，也就是私有化数据（这些数据是有价值的，也是企业的立足之本）。这些数据网络上肯定是不存在，那自然LLM也是不知道的。

我们在提问LLM对于一些不知道的知识时候，LLM很多时候是不知道如何回答问题的。甚至会对我们的问题进行胡诌随机回答，也就是瞎说。

为什么要用RAG

如果使用预训练好的LLM模型，应用在某些情景下势必会有些词不达意的问题，例如问LLM你个人的信息，那么它会无法回答；这种情况在企业内部也是一样，例如使用LLM来回答企业内部的规章条款等。

这种时候主要有三种方式来让LLM变得更符合你的需求：

Promt Enginerring：输入提示来指导LLM产生所需回应。例如常见的In-context Learning，通过在提示中提供上下文或范例，来形塑模型的回答方式。例如，提供特定回答风格的示例或包含相关的情境信息，可以引导模型产生更合适的答案。
Fine tuning：这个过程包括在特定数据集上训练LLM，使其响应更符合特定需求。例如，一个EDA公司会使用其内部文件verilog code进行Fine tuning，使其能够更准确地回答关于企业内部问题。但是Fine tuning需要代表性的数据集且量也有一定要求，且Fine tuning并不适合于在模型中增加全新的知识或应对那些需要快速迭代新场景的情况。
RAG（Retrieval Augmented Generation）：结合了神经语言模型和检索系统。检索系统从数据库或一组文件中提取相关信息，然后由语言模型使用这些信息来生成答案。我们可以把RAG想像成给模型提供一本书或者是文档、教程，让它根据特定的问题去找信息。此方法适用于模型需要整合实时、最新或非常特定的信息非常有用。但RAG并不适合教会模型理解广泛的信息或学习新的语言、格式。

目前的研究已经表明，RAG在优化LLM方面，相较于其他方法具有显著的优势。主要的优势可以体现在以下几点：

RAG通过外部知识来提高答案的准确性，有效地减少了虚假信息，使得产生的回答更加准确可信。
使用检索技术能够识别到最新的信息（用户提供），这使得LLM的回答能保持及时性。
RAG引用信息来源是用户可以核实答案，因此其透明度非常高，这增强了人们对模型输出结果的信任。
透过获取与特定领域数据，RAG能够为不同领域提供专业的知识支持，定制能力非常高。
在安全性和隐私管理方面，RAG通过数据库来存储知识，对数据使用有较好控制性。相较之下，经过Fine tuning的模型在管理数据存取权限方面不够明确，容易外泄，这对于企业是一大问题。
由于RAG不需更新模型参数，因此在处理大规模数据集时，经济效率方面更具优势。

不过虽然RAG有许多优势在，但这3种方法并不是互斥的，反而是相辅相成的。结合RAG和Fine tuning，甚至Promt Enginerring可以让模型能力的层次性得增强。这种协同作用特别在特定情境下显得重要，能够将模型的效能推至最佳。整体过程可能需要经过多次迭代和调整，才能达到最佳的成效。这种迭代过程涵盖了对模型的持续评估和改进，以满足特定的应用需求。

如何解决上面的问题

那如何让LLM知道这些最新/私有的数据的知识呢？那就是RAG。通过将模型建立在外部知识来源的基础上来补充回答。从而提高LLM生成回答的质量。

在基于LLM实现的问答系统中使用RAG有三方面的好处：

确保LLM可以回答最新，最准确的内容。并且用户可以访问模型内容的来源，确保可以检查其声明的准确性并最终可信。
通过将LLM建立在一组外部的、可验证的事实数据之上，该模型将信息提取到其参数中的机会更少。这减少了LLM泄露敏感数据或“幻觉”不正确或误导性信息的机会。
RAG还减少了用户根据新数据不断训练模型并随着数据的变化更新训练参数的需要。通过这种方式企业可以减低相关财务成本。

现在所有基础模型使用的是transformer的AI架构。它将大量原始数据转换为其基本结构的压缩表示形式。这种原始的表示基础模型可以适应各种任务，并对标记的、特定于领域的知识进行一些额外的微调。

不过仅靠微调很少能为模型提供在不断变化的环境中回答高度具体问题所需的全部知识，并且微调的时间周期还比较长。所以科学家们提出了RAG，让LLM能够访问训练数据之外的信息。RAG允许LLM建立在专门的知识体系之上，以更准确的回答问题，减低幻觉的产生。

安装langchain

使用下面的命令可以快速安装langchain相关的依赖

pip install langchain
pip install langchain-community # 默认安装
pip install langchain-core # 默认安装
pip install langchain-cli # LangChain 命令行界面
pip install --upgrade --quiet pypdf # 安装pdf 加载器的依赖

文档加载器 pdf

在这篇文章中我们使用pdf作为我们的知识库文档。加载文档的过程一般需要下面的步骤：

解析文档（txt、pdf、html、url、xml、markdown、json）等等为字符串（langchain已经分装了几十种文档加载器，感兴趣的可以去参考官网）。
将字符串拆分为适合模型的对话窗口的大小，称为chunk, chunk的大小需要依据模型的会话窗口设定。
保存拆分好的文档保存到向量数据库中。
设计向量数据库的数据库、集合、字段，索引等信息。
从向量数据库中检索需要的数据

这些步骤langchain已经给结合自己的工具连做好了封装，所以我们直接使用langchain来构建RAG。

from langchain_text_splitters