资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

企业智能知识库的构建：基于RAG的解决方案

创作时间:

作者:

@小白创作中心

企业智能知识库的构建：基于RAG的解决方案

引用

CSDN

https://m.blog.csdn.net/weixin_58753619/article/details/140352510

大型语言模型（LLMs）以其生成智能且自然流畅的响应而著称，但它们也面临着一些挑战。首先，训练数据的时效性限制了模型的知识范围。例如，GPT-4 的知识截止日期为 2021 年 9 月，这意味着它对此后发生的事件或发展一无所知。其次，LLMs 在提供信息准确性方面存在问题，它们可能会产生逻辑上连贯但事实上错误的“幻觉”。此外，LLMs 在处理特定领域或高度专业化的信息时也显得力不从心，通常只能在较宽泛的通用层面上生成响应。

为了克服这些限制，使 LLMs 能够应对特定和信息密集型的任务，一个有效的方法是将它们与 AI 知识库相连接。知识库是一个结构化的数据存储系统，它包含了丰富的信息资源，如产品文档、学术文章、新闻报道等。通过这种方式，LLMs 可以访问到最新的、准确的和专业的信息，从而生成更加精确和具体的响应。

在本文中，我将详细阐述如何构建这样一个知识库，并探讨如何将知识库与 LLMs 结合，以提高模型在特定领域的响应质量和准确性。通过这种结合，我们可以使 LLMs 不仅在通用任务上表现出色，也能在专业领域中发挥重要作用。

什么是 RAG？

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是一种先进的技术，它赋予了大型语言模型（LLMs）访问知识库中相关文档的能力，从而生成更加准确和具体的响应。RAG 技术的工作流程可以概括为以下几个步骤：

查询处理：首先，系统会搜索知识库，寻找与用户查询相关的信息。
上下文整合：然后，将最相关的搜索结果作为上下文信息整合到提示中，同时附加一条指令，例如：“仅使用以下段落中的信息来回答以下问题”，又或者是“参考以下段落中的内容来回答以下问题”。
指令适配：如果使用的 LLM 模型没有针对特定指令进行优化，则可能需要提供示例，以展示预期的输入和输出格式。
模型输入：将包含指令、搜索结果和输出格式的提示文本发送给 LLM 模型。
生成响应：LLM 利用上下文信息生成准确的响应。

RAG 的组件

RAG 由两个主要组件构成：信息检索组件和文本生成器 LLM。

检索器（Retriever）：检索器由一个查询编码器（query encoder）和基于向量的文档搜索索引（vector-based document search index）组成。现代向量数据库因其高效的检索能力而常用于此环节。这些数据库存储数据的向量嵌入（vector embedding of the data），即数据的数值表示（numerical representation），能够反映其语义含义。例如，将文本 “HELLO” 转换为向量形式 [0.23, 0.001, 0.707]。检索器将查询转换为向量，并利用相似性搜索在知识库中找到相关信息。一些流行的向量数据库包括 Chroma、FAISS、Pinecone等。
文本生成器 LLM：选择的 LLM 模型应符合特定需求。例如，如果解决方案需要考虑数据隐私，那么可能不宜使用 OpenAI 的 GPT 模型。在本例中，我选择了 Mistral 7B，这是 Mistral AI 发布的一个模型，它可能更适合特定的应用场景。

此外，我还将介绍 LangChain，这是一个常用于构建基于 RAG 技术的应用程序的框架。LangChain 提供了一套工具和接口，简化了 RAG 技术的应用开发过程，使得开发者能够更加专注于业务逻辑的实现。

通过这些技术的结合，RAG 不仅提高了 LLMs 在特定领域的响应质量，也为构建更为智能和准确的 AI 应用提供了强有力的支持。

创建 AI 知识数据库的步骤

为了充分利用 RAG 技术，构建一个 AI 知识数据库是至关重要的。以下是创建这样一个数据库的四个关键步骤：

收集与准备文档：首先，您需要搜集各种格式的文档，如 PDF、TXT 等。这一步骤主要涉及手动操作，无需编写代码。
文本分块：由于文档可能非常庞大，包含大量的文本，而大多数 LLM 的处理能力有限——例如，Mistral 7B 在生成文本时最多可以处理 8192 个字符。因此，您需要将文档分割成较小的块，通常每个块包含固定数量的字符，例如 1024 个字符。
生成向量嵌入：向量嵌入是通过将文本块转换成数值向量来实现的，这些向量能够捕捉文本的语义信息。这一过程通常需要使用专门的 NLP 模型，如 BERT（Bidirectional Encoder Representations from Transformers）的变体或其他先进的文本嵌入模型。
存储向量数据：生成的向量需要存储在向量数据库中。这些数据库专为快速检索和执行相似性搜索而设计，可以高效地支持 RAG 技术中的信息检索需求。

通过这些步骤，您将能够创建一个结构化的 AI 知识数据库，它将作为 RAG 技术的核心组成部分，与 LLM 结合使用，以生成准确、具体且信息丰富的响应。

让我们更详细地讨论这些步骤。

分块

在 RAG 管道中，文本分块是一个关键的预处理步骤。它涉及将长篇文本文档划分为易于理解和处理的较小片段，或称为“块”。这一过程对于确保语言模型（LLM）能够有效地处理文本并优化其对上下文窗口的利用至关重要。

文本分块的常见方法包括：

固定长度分块：将文本分割成具有预定数量字符或单词的块。
语义分块：根据语义边界划分文本，例如在段落或句子之间。
滑动窗口分块：使用有重叠的块来保持块边缘周围的上下文。

以下是使用 LangChain 和 LlamaIndex 等流行工具进行文本分块的代码示例：

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载文档
loader = TextLoader("path_to_your_document.txt")
documents = loader.load()

# 定义文本分块器
splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,  # 每个块的字符数
    chunk_overlap=24  # 块之间的重叠字符数
)

# 分割文档
chunks = splitter.split_documents(documents)

# 假设文档已经被保存在目录中
from llama_index.core import SimpleDirectoryReader
from llama_index.core import Settings

# 从目录加载文档数据
documents = SimpleDirectoryReader("./documents_directory").load_data()

# 设置分块参数
Settings.chunk_size = 512
Settings.chunk_overlap = 24

注意：在实际应用中，文本分块的参数（如块大小和重叠量）可能需要根据具体的文档内容和模型要求进行调整，以达到最佳的处理效果和检索准确性。

创建和存储嵌入

在文本分块之后，下一步是利用嵌入模型将这些块转换成向量形式，以便存储和检索。这一过程对于构建 AI 知识数据库至关重要，它将支持 RAG 技术中的信息检索。

以下是使用 LangChain 和 LlamaIndex 等工具创建和存储嵌入的代码示例：

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import ChromaIndex  # 修正 Chroma 类型

# 加载文档
loader = TextLoader("path_to_your_document.txt")
documents = loader.load()

# 定义文本分块器
splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,  # 每个块的字符数
    chunk_overlap=24  # 块之间的重叠字符数
)

# 分割文档
chunks = splitter.split_documents(documents)

# 使用嵌入模型和向量存储
embeddings = OpenAIEmbeddings()
vectorstore = ChromaIndex.from_documents(chunks, embeddings)  # 修正 ChromaIndex 使用

# 创建检索器
retriever = vectorstore.as_retriever()

# 假设文档已经被保存在目录中
from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

documents = SimpleDirectoryReader("./data").load_data()

# 设置分块参数
Settings.chunk_size = 512
Settings.chunk_overlap = 24

# 从文档创建索引
index = VectorStoreIndex.from_documents(documents, embeddings)

# 创建查询引擎
query_engine = index.as_query_engine()

此外，VectorStoreIndex.from_documents 方法可能需要额外的参数，如 vectorstore，以确保正确地创建索引。这些步骤将允许您创建一个 AI 数据库，它将连接到 LLM 并提高响应的准确性和相关性。

如何选择嵌入模型和向量数据库？

在快速演进的 AI 领域，选择合适的嵌入模型和向量数据库对于确保 RAG 技术的成功至关重要。AI领域每周都会发布新的嵌入模型。因此要选择适合自己需求的，请从MTEB 排行榜或拥抱HuggingFace开始。在那里，您可以找到每个模型型号的最新列表和性能统计信息。以下是一些关键因素，可以帮助您做出明智的选择：

选择嵌入模型时考虑的因素

性能排名：参考如 MTEB（Model-Theoretic Evaluation of Back-Ends）排行榜等资源，这些排行榜提供了不同模型的性能统计和排名。
检索效果：NDCG（Normalized Discounted Cumulative Gain）是一个衡量检索系统性能的重要指标。高 NDCG 值意味着模型能更有效地将相关项目排在检索结果的前面。
模型大小：模型的大小（以 GB 计）反映了运行模型所需的计算资源。选择一个在资源消耗和性能之间取得平衡的模型是关键。
嵌入生成速度：嵌入延迟，即生成整个数据集嵌入所需的时间，是衡量不同模型效率的一个重要指标。较短的嵌入时间可能意味着更快的检索能力，但也可能需要更多的计算资源。
检索质量：使用与数据集主题相关的问题来评估检索质量。对于实际应用，您应该考虑最终用户可能提出的问题类型。

选择向量数据库时考虑的因素

开源与专有：开源数据库拥有活跃的社区支持，可能更适合预算有限的项目。而专有数据库可能提供额外的功能和客户支持，适合有特定技术或合规性需求的项目。
性能：关键性能指标包括每秒查询数（QPS）和查询延迟。高 QPS 表明数据库能够处理大量并发查询，这对于需要服务多个用户的应用程序至关重要。低查询延迟对于需要快速响应的应用（如对话式 AI 机器人）非常重要。
成本效益：不同的数据库有不同的定价模型，可能基于向量数量、存储容量或数据传输量。选择一个符合您预算和性能需求的数据库是必要的。

在选择嵌入模型和向量数据库时，重要的是要进行仔细的评估，考虑自身的具体需求和现有条件。这可能包括对不同选项的基准测试，以确定哪个模型或数据库最适合您的特定应用场景。