问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

RAGFlow工作流程详解：从文档上传到智能检索

创作时间:

作者:

@小白创作中心

RAGFlow工作流程详解：从文档上传到智能检索

引用

1

来源

1.

https://juejin.cn/post/7385005775439380516

RAGFlow是一个用于处理和检索文档的系统，它能够解析多种文档格式，包括PDF、DOCX、EXCEL、PPT、IMAGE、TXT等。整个系统的工作流程可以分为以下几个步骤：

1. 文档解析

RAGFlow能够识别不同类型的文档，并针对每种文档类型进行相应的处理：

PDF：利用PDF解析库提取文本和图片信息，并识别PDF中的章节和段落结构。
DOCX：使用docx库解析，提取文本、图片、表格和其他嵌入对象。
EXCEL：利用pandas等库读取表格数据，并转化为文本和表格结构。
PPT：提取幻灯片中的文本内容、图片和图表。
IMAGE：使用OCR技术（如Tesseract）提取图片中的文本信息。
TXT：直接读取文本内容。

此外，系统还能够处理文档中的图片，并通过OCR技术将图片中的文字信息提取出来。开启布局识别功能时，系统能够识别文档中的章节、段落、表格、图片等布局结构。

2. 分块

解析后的文档内容会按照自然段落、章节、页面等逻辑结构进行分块。对于表格和图片，每个表格和图片单独作为一个块。系统会根据配置中设置的Token数进行分块，确保每块内容大小适中，不超过设定的Token数（如2048）。

3. 向量化

分块后的文档内容会通过Embedding模型转化为向量。根据配置，可以选择不同的Embedding模型（如BAAI/bge-large-zh-v1.5）。向量化的数据存储在向量数据库中（如Milvus、FAISS等），原始文档和分块后的文本内容可以存储在关系型数据库或文档数据库中。在分块过程中同时记录分块的元信息（如文档ID、块序号、块位置等），以便后续检索和复原完整文档。

4. 检索

用户提出检索请求（问题或关键词）后，API Server通过查询分析模块解析用户请求，提取关键词和生成查询Embedding。然后从向量数据库中检索与查询Embedding相似的文档块，使用多路召回和重排序机制，提高检索准确性。最后将检索到的相关文档块返回给用户。

5. 结合大模型回答

从检索到的文档块中提取答案，通过API Server中的大模型接口，生成回答。利用大模型（如GPT系列、BERT系列等）对答案进行优化和增强，提高答案的准确性和流畅度。最后将最终生成的答案通过Web Nginx返回给用户。

细化步骤示意

文档上传：用户上传文档至Web Nginx，Web Nginx将文档传递至API Server的任务分发模块。
文档解析与分块：API Server调用文档解析模块（包含OCR、文档布局分析、表格结构识别等）。文档解析模块将解析后的内容按设定的Token数分块，并存储至数据库。
向量化与存储：分块后的内容通过Embedding模型生成向量。向量化的数据存储至向量数据库，原始分块数据存储至关系型或文档数据库。
检索与回答生成：用户通过Web Nginx提交检索请求。API Server解析检索请求，生成查询Embedding并在向量数据库中进行检索。检索到的文档块通过大模型生成答案并返回给用户。

这些步骤展示了RAGFlow如何从文档上传到最终回答生成的完整流程。

热门推荐

天然气行业深度解析：中国天然气消费量预计超4000亿立方米

天然气行业深度解析：中国天然气消费量预计超4000亿立方米

新规下的北京充电桩难题：半数充电位被燃油车占用，运营商有苦难言

新规下的北京充电桩难题：半数充电位被燃油车占用，运营商有苦难言

珠海金湾湾区西翼崛起枢纽之城

珠海金湾湾区西翼崛起枢纽之城

法律生活是什么？从日常生活到权益维护的全面指南

法律生活是什么？从日常生活到权益维护的全面指南

什么是电容式触摸屏？工作原理、类型及应用领域全解析

什么是电容式触摸屏？工作原理、类型及应用领域全解析

电子商务对传统零售业的全球影响

电子商务对传统零售业的全球影响

《749局》杀青，《封神》第二部待映，北京文化能否扭亏为盈？

《749局》杀青，《封神》第二部待映，北京文化能否扭亏为盈？

如何用诗词起名技巧来选择程姓名字

如何用诗词起名技巧来选择程姓名字

英超第36轮前瞻：利物浦争冠形势严峻，曼联面临关键抉择

英超第36轮前瞻：利物浦争冠形势严峻，曼联面临关键抉择

从考古新发现看甘肃华夏文明的连续性

从考古新发现看甘肃华夏文明的连续性

高效沟通技能如何促进创新和创意的产生？

高效沟通技能如何促进创新和创意的产生？

业务流程分析的主要步骤及关键环节详解

业务流程分析的主要步骤及关键环节详解

赵岩研究组揭示多巴胺再摄取的分子机制和低成瘾风险药物作用机制

赵岩研究组揭示多巴胺再摄取的分子机制和低成瘾风险药物作用机制

你听说过"空心病"吗？

你听说过"空心病"吗？

根据不同的健身目标应如何安排锻炼频率

根据不同的健身目标应如何安排锻炼频率

程序员如何画好技术图：一图胜千言

程序员如何画好技术图：一图胜千言

《物现文明·金秋》：两千年前的麦田守望

《物现文明·金秋》：两千年前的麦田守望

零食也能健康：如何选择聪明的零食？

零食也能健康：如何选择聪明的零食？

为什么管道气压试验不得超过1.6mpa

为什么管道气压试验不得超过1.6mpa

18650锂电池新旧能一起用吗？

18650锂电池新旧能一起用吗？

如何管理在远程工作中的孤独感

如何管理在远程工作中的孤独感

路边的三角标线是啥意思？交警：新手看看，不然12分都不够扣，你怎门看？

路边的三角标线是啥意思？交警：新手看看，不然12分都不够扣，你怎门看？

突破传统：实心橡胶轮胎的优势与应用

突破传统：实心橡胶轮胎的优势与应用

星穹铁道机制击破特攻行动延后讲解

星穹铁道机制击破特攻行动延后讲解

掼蛋高手速成秘籍：从新手到高手的蜕变之路

掼蛋高手速成秘籍：从新手到高手的蜕变之路

870元每克！金价再创历史新高，现在入市“买买买”还来得及吗？

870元每克！金价再创历史新高，现在入市“买买买”还来得及吗？

广州强直性脊柱炎：精准诊疗与科学管理的新时代

广州强直性脊柱炎：精准诊疗与科学管理的新时代

青年客群渐成主力如何理解中国青年的旅游消费观？

青年客群渐成主力如何理解中国青年的旅游消费观？

2025交规新变化：新国标红绿灯老司机中招，不懂或致驾驶证分数不够扣

2025交规新变化：新国标红绿灯老司机中招，不懂或致驾驶证分数不够扣

秦L车主实测能耗分享：三位车主详细数据揭秘真实油耗表现

秦L车主实测能耗分享：三位车主详细数据揭秘真实油耗表现

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号