增强RAG系统落地效果的9条最佳实践
创作时间:
作者:
@小白创作中心
增强RAG系统落地效果的9条最佳实践
引用
1
来源
1.
https://developer.volcengine.com/articles/7468130737770725430
RAG(Retrieval-Augmented Generation)系统是一种结合了检索和生成的自然语言处理技术,通过从知识库中检索相关信息来增强语言模型的生成能力。本文通过系统地研究RAG系统中的关键因素,包括语言模型的大小、提示设计、文档块大小、知识库大小、检索步长、查询扩展技术、对比上下文学习知识库、多语言知识库和焦点模式等,得出了9条最佳实践。
9条最佳实践
- 语言模型大小:较大的模型(如45B参数模型)在TruthfulQA上表现更好,但在MMLU上提升有限。
- 提示设计:有益的提示(如HelpV2和HelpV3)显著优于对抗性提示,表明提示设计对性能有重要影响。
- 文档块大小:文档块大小对性能影响较小,较大的块(如192个token)略好。
- 知识库大小:知识库大小对性能影响不显著,表明知识库的质量和相关性比大小更重要。
- 检索步长:较大的检索步长(如每5步更新一次)有助于保持上下文连贯性。
- 查询扩展:查询扩展对性能提升有限,但在TruthfulQA上略有改善。
- 对比式上下文学习:使用对比示例(正确与错误答案)显著提升了模型的准确性和相关性。
- 多语言知识库:多语言知识库降低了性能,可能是由于模型难以有效整合多语言信息。
- 聚焦模式:仅提取最相关的句子可以显著提升性能,尤其是在MMLU数据集上。
实验设计架构
研究设计了9个研究问题,并设计了相应的RAG系统变体进行实验。RAG系统包含三个主要模块:
- 查询扩展模块:使用Flan-T5模型扩展用户查询,生成相关关键词。
- 检索模块:使用FAISS进行高效相似性搜索,从知识库中检索相关文档。
- 文本生成模块:基于检索到的上下文和用户查询生成响应。
RAG变体性能比较
实验在TruthfulQA和MMLU数据集上进行评估,设置包括:语言模型大小(LLM Size)、提示设计(Prompt Design)、文档大小(Doc Size)、知识库大小(KW. Size)、检索步长(Retrieval Stride)、查询扩展(Query Expansion)、对比式上下文学习知识库(Contrastive ICL)、多语言知识库(Multilingual)和聚焦模式(Focus Mode)。R1、R2、RL和ECS分别表示ROUGE-1 F1、ROUGE-2 F1、ROUGE-L F1和嵌入余弦相似度分数。加粗的分数表示与基线(即Instruct7B RAG)相比具有统计显著性。
结果示例
在TruthfulQA和MMLU数据集上生成的结果示例,其中“w/o_RAG”表示没有RAG系统的基础LLM。变体HelpV2(HelpV3)、2DocXL、1K_5Doc、ExpendL、ICL1D+以及80Doc80S(120Doc120S)分别代表提示设计、文档大小、知识库大小、查询扩展、对比式上下文学习和聚焦模式部分的最佳配置。
参考资料
热门推荐
助力《哪吒2》票房“神话” 无锡打造影视特效之城
从《寂静岭4》看经典恐怖游戏设计的智慧
工程技术|CAAC无人机驾照:低空作业的金钥匙
广州塔“扭”动背后的科技秘密
史上最全婴儿0-24月衣服尺寸表,三个月买66还是73一看便知
企业安全策略制定指南:构建全面的网络安全防护体系
如何轻松解除Windows 10中的微软账户绑定?
叶面肥磷酸二氢钾使用方法
古代中国的水秘密:都江堰与灵渠的历史奇迹
劳动关系的法律定义与规定
一踩地就痛!3招远离足底筋膜炎,让你不再步步惊心
6亿栋!中国新建房与存量房双重过剩传递了什么信号?
鸡翅先焯水还是先腌制?正确处理步骤详解
物流运输怎么收费,2024物流运输计费标准【含报价单】
体温36.9℃,为何感觉却似发烧?
区域经济管理:优化资源配置促进可持续发展
王者荣耀补刀秘籍:掌握这一招,经济压制对手,轻松上分
韭菜几月种植最好?
庆历新政:一次意义深远的政治变革
18个描写春天的成语,送你笔底春风!
钙钛矿商业化,究竟到哪一步了?
肌酸激酶高该去哪个科?答案在这里!
【广州租房入学攻略】中小学报名即将开始,不满足备案年限怎么办?一文解答!
怎样处理盐碱地
兑换港币要手续费吗?具体情况和注意事项
自恋型人格障碍能治好吗
苔丝人物分析
8种牙齿美白方式大PK!哪种牙齿美白效果最好?牙齿美白安全吗?
双相情感障碍的健康教育
集团人事管理信息化目标及重点工作内容【数字化规划】