问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

一篇全新知识导向 RAG 全栈技术综述

创作时间:

作者:

@小白创作中心

一篇全新知识导向 RAG 全栈技术综述

引用

1

来源

1.

https://mmssai.com/archives/30317

近期，中国科学技术大学（中科大）发布了一篇关于知识导向检索增强型生成（Retrieval-Augmented Generation, RAG）的综述文章，全面介绍了RAG的基本原理、关键组件、特性、挑战以及在不同领域的应用，并探讨了未来发展的7种RAG技术形态。

RAG研究组织框架

时间线从2020年延续至当下，将RAG相关研究分为三大领域：基础（包括RAG学习和RAG框架）、高级以及评估。时间线上还标记了语言模型领域的重要里程碑（如GPT-3、ChatGPT、GPT-4）。

不同RAG综述的比较

LLM：是否在大型语言模型的背景下讨论RAG；多模态：是否涵盖多模态RAG；图结构：是否讨论RAG中的图结构化信息；高级：对高级RAG技术的覆盖范围；评估：是否涉及评估方法；知识：是否采用以知识为中心的视角。

RAG基本原理

问题表述：将输入序列转换为输出序列，通过检索函数从外部知识库中提取相关信息，增强生成过程。
检索：从外部知识源中获取有用知识，包括文本、图像、音频等多种模态，以及结构化和非结构化数据。
生成：结合内部知识和检索到的外部知识，生成连贯、相关的输出。
知识整合：将内部知识与检索到的外部知识进行整合，是RAG的核心环节。

RAG的关键特性与挑战

探讨了检索增强型生成（RAG）模型的核心要素和目标，详细分析了用户意图理解、知识检索、知识整合、答案生成和评估指标等关键环节。这些要素共同构成了RAG系统的框架，并揭示了其在自然语言处理任务中的重要性和面临的挑战。

精准的用户意图理解：准确理解用户意图是生成相关响应的关键，但用户查询的模糊性和多样性增加了理解难度，需借助文本建模、查询重写等策略提升意图理解的准确性。
准确的知识检索：知识检索为生成过程提供相关上下文，直接影响输出质量，但处理大规模数据集、平衡精确度与召回率以及应对动态数据源是其主要挑战，需优化检索算法并利用相关性反馈来解决。
无缝的知识整合：将外部知识与内部知识无缝整合是生成连贯输出的重要环节，面临处理不同数据类型、解决知识冲突和确保知识时效性的挑战，可通过多层整合策略灵活处理不同来源的知识。

RAG基本方法

用户意图理解：通过查询分解和查询重写等技术，提高查询质量。
知识源与解析：RAG可以利用结构化、半结构化、非结构化和多模态知识。
知识嵌入：将知识分割成有意义的单元，并转换为向量嵌入，便于检索。
知识索引：为大规模数据集创建结构化索引，提高检索效率。
知识检索：根据输入查询检索相关知识，包括稀疏检索、密集检索和混合检索策略。
知识整合：通过输入层、中间层和输出层整合检索到的知识。
答案生成：通过去噪和推理生成准确、连贯的输出。
知识引用：为生成的内容提供引用，确保透明度和可信度。

RAG采用的答案生成策略，包括去噪和推理。

RAG的高级方法

RAG训练：包括静态训练、单向引导训练和协作训练，优化检索和生成组件的协同工作。

多模态RAG：整合多种模态数据，如图像、音频和视频，以增强输出。
记忆增强RAG：引入显式记忆机制，处理长文档理解和个性化知识。
Agentic RAG：引入自主Agent进行动态优化，处理复杂任务。

RAG未来发展

GraphRAG：结合知识图谱增强RAG的推理能力。
多模态RAG：整合多种模态数据，提升理解能力。
个性化RAG：根据用户偏好和历史行为提供个性化响应。
Agentic RAG：通过自主代理进行动态优化，处理复杂任务。
RAG与生成模型的结合：探索与扩散模型等其他生成模型的结合。
EdgeRAG：在边缘计算环境中部署RAG，降低延迟并保护隐私。
可信RAG：提高RAG系统的可解释性和可信度。

参考文献

热门推荐

盘点日系galgame手游汉化版大全 2024热门的美少女游戏推荐

盘点日系galgame手游汉化版大全 2024热门的美少女游戏推荐

自考学位证原来还有这些用途！自考生如何申请学位证书？

自考学位证原来还有这些用途！自考生如何申请学位证书？

糖尿病能少量多餐吗？认识少量多餐的注意事项

糖尿病能少量多餐吗？认识少量多餐的注意事项

10种不能用酒精擦的东西，一擦就坏，无法修复

10种不能用酒精擦的东西，一擦就坏，无法修复

掌握越野跑技巧与装备，这篇指南必不可少

掌握越野跑技巧与装备，这篇指南必不可少

比亚迪招工合同怎么签：全面解析劳动合同签订的法律要点

比亚迪招工合同怎么签：全面解析劳动合同签订的法律要点

告别油腻，享受低脂烤茄子，只需一台空气炸锅！

告别油腻，享受低脂烤茄子，只需一台空气炸锅！

“碳”路先行｜山西国企追“光”减碳练好“清洁高效”真功夫

“碳”路先行｜山西国企追“光”减碳练好“清洁高效”真功夫

C罗和梅西在西甲的进球效率对比

C罗和梅西在西甲的进球效率对比

王梓莼：从15岁校园网红到北电艺考全国第五

王梓莼：从15岁校园网红到北电艺考全国第五

奋力打造海南自贸港“样板间”：儋州洋浦开启高质量发展新篇章

奋力打造海南自贸港“样板间”：儋州洋浦开启高质量发展新篇章

诗经的历史演变

诗经的历史演变

RX580、RX590和1660显卡对比：性能与性价比全解析

RX580、RX590和1660显卡对比：性能与性价比全解析

建筑工程质量保修期在在法律上是如何规定的

建筑工程质量保修期在在法律上是如何规定的

华山医院团队重大科研突破登上顶刊：首次发现帕金森病全新治疗靶点，有望延缓病程

华山医院团队重大科研突破登上顶刊：首次发现帕金森病全新治疗靶点，有望延缓病程

葛根的作用

葛根的作用

英冠联赛前瞻：谢菲联vs利兹联，谁能延续连胜？

英冠联赛前瞻：谢菲联vs利兹联，谁能延续连胜？

根上视力综：为什么缺少户外活动会导致近视？

根上视力综：为什么缺少户外活动会导致近视？

动是什么字？“动”是什么字？一个汉字小探：形、音、义的精彩解读!

动是什么字？“动”是什么字？一个汉字小探：形、音、义的精彩解读!

忻州古城的始建与发展

忻州古城的始建与发展

无数少年的启蒙高达从何而来

无数少年的启蒙高达从何而来

空间设计流程的关键步骤有哪些？

空间设计流程的关键步骤有哪些？

多元思维交织：逻辑、辩证、系统、批判性与创新思维的深度剖析

多元思维交织：逻辑、辩证、系统、批判性与创新思维的深度剖析

如何高效制定和实施计划？掌握这五个关键步骤

如何高效制定和实施计划？掌握这五个关键步骤

走进"中国温泉之乡"温汤镇：银发族乐享"硒"式养生

走进"中国温泉之乡"温汤镇：银发族乐享"硒"式养生

最清醒的活法：管好自己，别去叫醒他人

最清醒的活法：管好自己，别去叫醒他人

真佩服这位北京姑娘，买下78㎡“渣户型”，改造后应有尽有，羡慕

真佩服这位北京姑娘，买下78㎡“渣户型”，改造后应有尽有，羡慕

2024年私家车报废标准最新解读：行驶里程、使用年限与环保要求全解析

2024年私家车报废标准最新解读：行驶里程、使用年限与环保要求全解析

不能错过的酸萝卜老鸭汤，鲜酸滋补，滋阴补虚，被夸爆的家常菜

不能错过的酸萝卜老鸭汤，鲜酸滋补，滋阴补虚，被夸爆的家常菜

艾灸太溪穴的功效与操作方法

艾灸太溪穴的功效与操作方法

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号