增强RAG系统落地效果的9条最佳实践
创作时间:
作者:
@小白创作中心
增强RAG系统落地效果的9条最佳实践
引用
1
来源
1.
https://developer.volcengine.com/articles/7468130737770725430
RAG(Retrieval-Augmented Generation)系统是一种结合了检索和生成的自然语言处理技术,通过从知识库中检索相关信息来增强语言模型的生成能力。本文通过系统地研究RAG系统中的关键因素,包括语言模型的大小、提示设计、文档块大小、知识库大小、检索步长、查询扩展技术、对比上下文学习知识库、多语言知识库和焦点模式等,得出了9条最佳实践。
9条最佳实践
- 语言模型大小:较大的模型(如45B参数模型)在TruthfulQA上表现更好,但在MMLU上提升有限。
- 提示设计:有益的提示(如HelpV2和HelpV3)显著优于对抗性提示,表明提示设计对性能有重要影响。
- 文档块大小:文档块大小对性能影响较小,较大的块(如192个token)略好。
- 知识库大小:知识库大小对性能影响不显著,表明知识库的质量和相关性比大小更重要。
- 检索步长:较大的检索步长(如每5步更新一次)有助于保持上下文连贯性。
- 查询扩展:查询扩展对性能提升有限,但在TruthfulQA上略有改善。
- 对比式上下文学习:使用对比示例(正确与错误答案)显著提升了模型的准确性和相关性。
- 多语言知识库:多语言知识库降低了性能,可能是由于模型难以有效整合多语言信息。
- 聚焦模式:仅提取最相关的句子可以显著提升性能,尤其是在MMLU数据集上。
实验设计架构
研究设计了9个研究问题,并设计了相应的RAG系统变体进行实验。RAG系统包含三个主要模块:
- 查询扩展模块:使用Flan-T5模型扩展用户查询,生成相关关键词。
- 检索模块:使用FAISS进行高效相似性搜索,从知识库中检索相关文档。
- 文本生成模块:基于检索到的上下文和用户查询生成响应。
RAG变体性能比较
实验在TruthfulQA和MMLU数据集上进行评估,设置包括:语言模型大小(LLM Size)、提示设计(Prompt Design)、文档大小(Doc Size)、知识库大小(KW. Size)、检索步长(Retrieval Stride)、查询扩展(Query Expansion)、对比式上下文学习知识库(Contrastive ICL)、多语言知识库(Multilingual)和聚焦模式(Focus Mode)。R1、R2、RL和ECS分别表示ROUGE-1 F1、ROUGE-2 F1、ROUGE-L F1和嵌入余弦相似度分数。加粗的分数表示与基线(即Instruct7B RAG)相比具有统计显著性。
结果示例
在TruthfulQA和MMLU数据集上生成的结果示例,其中“w/o_RAG”表示没有RAG系统的基础LLM。变体HelpV2(HelpV3)、2DocXL、1K_5Doc、ExpendL、ICL1D+以及80Doc80S(120Doc120S)分别代表提示设计、文档大小、知识库大小、查询扩展、对比式上下文学习和聚焦模式部分的最佳配置。
参考资料
热门推荐
卫星遥感在气象服务中的应用
“智慧军营”助力减负增效,部队建设迎新进步
经常性工作宝典丨谈心“四步走”,助力掌握官兵“活思想”
室外地砖材质选择与施工要点全解析
高中语文作文九大得分技巧
车辆年检时需要准备哪些材料?这种准备对年检流程有何重要性?
炒蒜苔前要不要焯水?这个简单步骤竟能决定整道菜的口感和风味
摆脱烦人“偏头痛”专家有话说
科学三大领域简介
多达10个豆腐品种:便宜食材但高营养
推荐10部泰国经典恐怖片,看过一半以上都是狠人!
冬天最适合吃的10种水果 冬天吃的水果有哪些
阿司匹林不良反应及防治
自研心脏,铸就海疆利器 —— 052D驱逐舰CGT40燃气轮机揭秘
高速公路停车全攻略:这些安全要点你必须知道
海南三亚:“先行赔付”机制让游客放心消费
16进制在编程中的应用
5G网络待机耗电狂飙!手机续航受挑战,用户焦虑不已
通缩下什么最保值?八大资产类别详解
鸡蛋蛋黄特别黄是什么原因
小羊羔拉稀 通过粪便颜色判断原因 防治更有效!
《明日方舟》阵营大全,探究各大阵营背景与特点!
10种纯素烘焙蛋替代食材,让无蛋烘焙也能美味
羽绒枕头的填充量与舒适度
只有努力才能成功的名言
为什么胡子剃不干净发黑(刮胡子小技巧大揭秘)
男士刮胡子的最佳时间及注意事项
北京师范大学计算机考研考情分析
糖尿病人慎用这5类感冒药,不注意的话,可能会升高血糖、诱发并发症!
化妆品及其原料眼刺激性的鸡胚绒毛尿囊膜法检测