问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

【RAG】R²AG：将检索信息融入RAG，提升问答系统准确性

创作时间:

作者:

@小白创作中心

【RAG】R²AG：将检索信息融入RAG，提升问答系统准确性

引用

1

来源

1.

https://developer.volcengine.com/articles/7433674226583732233

在自然语言处理领域，RAG（Retrieval-Augmented Generation）模型通过结合检索和生成技术，显著提升了问答系统的性能。然而，传统的RAG模型在LLM（大语言模型）与检索器之间存在语义鸿沟，导致信息利用效率不高。为了解决这一问题，最新研究提出了R²AG模型，通过引入检索信息增强RAG的性能。本文将详细介绍R²AG模型的创新方法及其实验效果。

方法

模型架构

R²AG模型的核心创新在于引入了可训练的-Former模块，用于弥合检索器和LLM之间的语义鸿沟。具体来说，模型架构包括以下几个关键组件：

检索特征提取

在R²AG中，首先从检索器获取语义表示：

查询编码表示
文档编码表示

然而，这些表示不能直接使用，因为单一的表示无法捕捉到用于LLM生成的交互特征。因此，需要将不同空间中的表示转换为统一格式的特征。研究者提出了三种相似计算方法来对这些表示进行对齐，从而得到检索特征：

相关性得分：计算查询和第个文档之间的相关性
前例相似性得分：计算第个文档表示与其在排名列表中的前例加权表示之间的相似性
邻居相似性得分：计算第个文档表示与其相邻表示之间的平均相似性

这些得分通过相似性函数（如点积或余弦相似性）计算得出。具体的公式如下：

最后，将这三个特征拼接起来作为输入：

然后将特征列表输入到-Former中，以进一步挖掘检索信息。

-Former

-Former是R²AG框架中引入的一个可训练模块，目的是弥合检索器和LLM之间的语义鸿沟。-Former被设计为接受列表特征作为输入，并输出检索信息。输入列表，-Former处理输入过程公式如下：

其中：

是具有隐藏维度的Transformer编码器
是一个线性映射层
表示可训练的位置嵌入

这个模块通过利用自注意力机制来增强对检索器提供的列表特征的理解。

检索感知提示

步骤：

使用一个投影层将检索信息线性变换到与LLM的token嵌入层相同的维度
使用LLM的分词器对查询和文档进行分词，并将其转换为嵌入
检索信息的嵌入：为了对每个文档进行细致的分析，相应的检索信息嵌入被添加到每个文档嵌入的前面。这些嵌入作为外部知识，起到锚点的作用，引导LLM关注有用的文档。最终的输入嵌入可以排列如下：

其中表示第个文档的检索信息嵌入。通过这种方式，相应文档的检索信息可以很好地混合在一起，减少了LLM处理所有文档的负担。
4. 生成响应：

其中表示LLM生成的最终结果。

这一模块主要是将检索信息作为额外的知识输入，增强了LLM对文档的理解能力。

训练策略

主要是训练-Former和LLM的对齐训练：

训练-Former：-Former是一个查询-文档匹配任务，是一个二分类任务：

其中是一个二分类头，输出文档的相关性预测。支持是文档的真实标签，交叉熵作为损失函数，定义为：

LLM的对齐训练：语言建模损失
联合训练：联合训练使得-Former能够更好地理解来自检索器的列表特征，确保检索信息可以被LLM深入解释。总体损失：

文中，提供了仅训练-Former而冻结LLM，或同时训练

实验

参考文献

https://arxiv.org/pdf/2406.13249v2

热门推荐

元岐食养：湿热体质怎么食养？

元岐食养：湿热体质怎么食养？

固态电池攻守战2030：比亚迪“固液同价”VS二线厂商“攻擂”

固态电池攻守战2030：比亚迪“固液同价”VS二线厂商“攻擂”

比《小巷人家》好看的年代剧，太经典了

比《小巷人家》好看的年代剧，太经典了

9部门联合发文助力国货“出海” 跨境电商迎政策利好

9部门联合发文助力国货“出海” 跨境电商迎政策利好

东野圭吾《大雪中的山庄》：死人也会杀人模式的新演绎

东野圭吾《大雪中的山庄》：死人也会杀人模式的新演绎

中国专利申请选择提前公开，真的对吗？——可能大错特错

中国专利申请选择提前公开，真的对吗？——可能大错特错

服务器搬迁中服务器运输过程中的注意事项

服务器搬迁中服务器运输过程中的注意事项

湘西古城旅游攻略：历史遗迹、自然景观与文化体验

湘西古城旅游攻略：历史遗迹、自然景观与文化体验

中国空军副司令谈六代机：颠覆性技术将改变战争形态

中国空军副司令谈六代机：颠覆性技术将改变战争形态

身高160，体重86斤的人如何调节饮食以增重

身高160，体重86斤的人如何调节饮食以增重

什么样的枕芯好？四大优质枕芯推荐

什么样的枕芯好？四大优质枕芯推荐

牡丹鹦鹉如何饲养，牡丹鹦鹉怎么喂养

牡丹鹦鹉如何饲养，牡丹鹦鹉怎么喂养

玄凤鹦鹉耐寒温度多少度？如何为它们提供温暖的环境

玄凤鹦鹉耐寒温度多少度？如何为它们提供温暖的环境

职场社交圈太窄？这四种方式帮你轻松拓展脱单渠道

职场社交圈太窄？这四种方式帮你轻松拓展脱单渠道

GN-002力天使高达

GN-002力天使高达

家庭照顾者之间的沟通方法

家庭照顾者之间的沟通方法

考古的发现：重现旧唐人街的华人面孔

考古的发现：重现旧唐人街的华人面孔

八字时柱：影响一个人晚年的关键密码

八字时柱：影响一个人晚年的关键密码

信用卡分期利率怎样折合年化利率？可以提前一次还清吗？

信用卡分期利率怎样折合年化利率？可以提前一次还清吗？

撒旦与路西法：西方神话中两大反派角色的关系解析

撒旦与路西法：西方神话中两大反派角色的关系解析

王者荣耀中，多少ping值才算高？

王者荣耀中，多少ping值才算高？

如何加强团队组织力建设

如何加强团队组织力建设

天蝎座的幸运数字和颜色天蝎座的幸运数字和颜色是什么

天蝎座的幸运数字和颜色天蝎座的幸运数字和颜色是什么

Windows命令行一键安装、配置WSL的方法

Windows命令行一键安装、配置WSL的方法

《问》诗原文：探析这首诗的背景和意义

《问》诗原文：探析这首诗的背景和意义

专家解析：如何治疗低头后肩膀和脖子僵硬且头晕的症状

专家解析：如何治疗低头后肩膀和脖子僵硬且头晕的症状

2025年UCL最新录取政策：中国院校学生申请要求全解析

2025年UCL最新录取政策：中国院校学生申请要求全解析

如何强制安装电脑系统(电脑配置低装系统方法)

如何强制安装电脑系统(电脑配置低装系统方法)

布留洛夫世界名画《意大利晌午》

布留洛夫世界名画《意大利晌午》

从标准到应用：AEC-Q100 系列测试规范的全面解读与实践指南

从标准到应用：AEC-Q100 系列测试规范的全面解读与实践指南

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号