RAG实践:AI知识库问答系统的建设与实现
创作时间:
作者:
@小白创作中心
RAG实践:AI知识库问答系统的建设与实现
引用
1
来源
1.
https://www.cnblogs.com/baoshu/p/18641764/finclip_rag_doc_qa
最近在工作中构建了一套自动的基于文档中心为数据集构建知识库 AI 问答的系统,来提升用户体验和技术支持效率,分享一下在实现过程中的技术选型和架构设计。
背景
先说下背景,我们公司的产品FinClip是做小程序全套解决方案的,因为产品属性的原因,接入的过程中主要是面向开发者的,会有很多的开发相关的问题。我们有一个文档中心https://finclip.com/mop/document/,里面几乎存储了我们大部分的面向客户开发的文档。
所以在构建知识库问答的时候,我们有以下的数据源
- 文档中心的文档https://finclip.com/mop/document/
- 在社区交付过程中,交付整理的问题 QA
- 售前和销售在和客户阐述方案的时候,腾讯会议纪要
在构建知识库的时候,希望的采用的是「自动化数据集」为主 & 「手动数据集」为辅的策略。将文档中心 & 腾讯会议纪要两部分打通自动化设置数据集的流程,剩余的交付整理的 QA 文档作为手动数据集为补充。
实现效果
实现效果侧还是还对比较简单,对于用户而言在我们的管理后台实现了一个聊天框,能够回答整个系统内的基本所有的问题,只要数据集有涉及到的
整体架构设计
整个基于 RAG 实现的AI 问答的链路,主要包含以下几个核心部分:
- 文档中心Gitlab仓库:基于 Gitlab 管理所有技术文档
- CI Pipeline:在文档中心的文档负责文档更新的自动化处理流程
- LLM Service:大语言模型服务层,负责文档理解和问答生成,此处会针对源文档进行一次 QA 的拆分
- FastGPT:向量数据库和知识检索服务
- 用户交互层:提供统一的问答接口
这种设计带来几个明显优势:
- 文档更新自动化,确保知识库实时性
- 服务解耦,便于独立扩展和维护
- 分层处理提升系统可靠性
文档处理流程
文档处理是整个系统的基础,我们的处理流程如下:
- 文档变更触发:通过 Gitlab CI 监听文档更新
- 自动化处理:CI Pipeline 自动执行以下步骤:
- 检测文档增量更新
- 提取文档内容
- 进行 QA 拆分,生成问答对
- 推送到知识库
这个流程确保了知识库能够及时反映最新的文档内容,无需人工干预。
知识库技术选型
在知识库方案选型时,我们主要对比了 FastGPT 和 RAGFlow:
FastGPT 的优势:
- 开箱即用的向量检索能力
- 良好的社区支持
- 简单的部署维护
- 内置的文本分块策略
Embedding 和 Rerank
我们的向量检索策略采用:
- 使用 embedding 模型将文本转换为向量
- 通过 ReRank 优化搜索结果相关性
- 动态调整检索阈值,平衡召回率和精确度
最终的流程图如下
AI 问答实现
问答系统的核心流程:
- 知识检索:
- 用户提问向量化
- 在知识库中检索相关内容
- 通过 Rerank 筛选最相关片段
- 答案生成:
- 将检索内容作为上下文
- 通过 LLM 生成自然、准确的回答
- 添加引用来源,提升可信度
- 质量保证:
- 答案相关性评分
- 兜底策略处理
- 用户反馈收集
热门推荐
800多位海内外钱王后裔杭州共祭祖 这项传统民俗祭祀有更多现实意义
图像传感器技术详解:从基础原理到发展趋势
图书馆中的历史印记②城市发展史上的深刻记忆——哈尔滨老火车站
什么是担保权利义务
年轻人为何热衷于考取CAAC无人机执照?
垂直起降、伞降回收、有翼水平回收……可回收火箭有哪些技术路径
中国首枚可回收火箭朱雀三号:开启低成本卫星互联网新时代
任嘉伦告别老东家,欢瑞世纪迎来新一轮危机
沉金和沉镍钯金的区别与优缺点
特长生和普通生高考有什么区别?文化课一样吗?分数差多少
心学问青少年教育,青春期的自主权:家庭中的界限与责任
了解狗狗癫痫,化解恐惧(揭秘狗狗癫痫的真相,让爱更深沉)
扭力传感器出现故障是什么原因,如何解决
数据备份策略:企业防御的关键
关于货币、通胀和利率之间的关系
Excel右键新建功能设置指南:三种实用方法详解
《自然》长文聚焦中国核聚变:力争引领全球
李某起诉王某借钱不还:一起民事诉讼案例分析
汇金科技:互联网金融, 信创, 国产操作系统
MySQL数据库操作入门:从创建到备份恢复的完整指南
安全阀压力调整全攻略:开启压力、排放压力和回座压力的调节方法
热水器安全阀工作原理 热水器安全阀的结构原理解析
八字里的从格是什么意思、八字命理揭秘:从格命理的深层含义与影响
5G时代“云-边”协同的网络架构
提升车内空间使用效率:实用收纳技巧全攻略
数据库第二范式如何理解
H3C 单臂路由配置详解
白话VS粤语:深入剖析两者间的微妙差异与独特魅力
白话VS粤语,深入剖析两者间的微妙差异与独特魅力
数据备份在数据安全中的重要性