问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Meta-Chunking:基于LLM的文本分块优化方法

创作时间:
作者:
@小白创作中心

Meta-Chunking:基于LLM的文本分块优化方法

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/143163363

Meta-Chunking是一种基于LLM的文本分块优化方法,用于改进RAG(检索增强生成)系统的性能。通过边缘采样和困惑度分析两种策略,Meta-Chunking能够实现更高效的文本分块,显著提升检索质量和效率。

摘要

检索增强生成(RAG)虽然是大型语言模型(LLM)的可行补充,但往往忽视了其管道中文本分块的关键方面,这会影响知识密集型任务的质量。本文介绍了元分块的概念,它指的是句子和段落之间的粒度,由段落中具有深层语言逻辑联系的句子集合组成。为了实现元分块,我们设计了两种基于LLM的策略:边缘采样分块和困惑分块。前者采用LLM对连续句子是否需要分段进行二元分类,根据边缘采样获得的概率差做出决策。后者通过分析困惑度分布的特征来精确识别文本块边界。此外,考虑到不同文本的固有复杂性,我们提出了一种将元分块与动态合并相结合的策略,以实现细粒度和粗粒度文本分块之间的平衡。

在11个数据集上进行的实验表明,元分块可以更有效地提高基于RAG的单跳和多跳问答的性能。例如,在2WikiMultihopQA数据集上,它比相似分块高1.32倍,而只消耗45.8%的时间。我们的代码在https://github.com/IAAR-Shanghai/Meta-Chunking.

文章简介

研究问题:在检索增强生成(RAG)系统中,传统文本分块方法在捕捉句子间逻辑关系细微变化方面的不足,如何实现细粒度和粗粒度文本分块之间的有效平衡?

主要贡献:论文提出了一种名为Meta-Chunking的创新文本分块技术,通过动态组合策略实现了更高效的文本分块,显著提升了检索质量和效率。

重点思路

相关工作

文本分割:旨在将文本内容分解为其组成部分,为后续高级任务如信息检索和文本摘要提供支持,主要技术是文档主题建模,包括基于概率和基于聚类等方法。

RAG文本分块:无效的分块策略可能会导致上下文不完整或过多的不相关信息,从而损害QA系统的性能,除了句子或段落等典型的粒度级别。

论文方案

Meta-Chunking方法:利用LLM的能力,将文档灵活地分割成逻辑上连贯、独立的块,包括边缘采样和困惑度(PPL)两种思路。

核心原则:允许块大小的可变性,以更有效地捕捉和保持内容的逻辑完整性。

边缘采样:首先将其分割成句子集合,然后利用LLM对连续句子是否需要分块进行二元分类,根据边际采样得到的概率差进行决策。该方法通过动态调整粒度,确保每个分块包含完整的独立表达,从而避免分块过程中的逻辑断裂。

困惑度:通过分析PPL分布特征来精确识别文本块边界,真正影响不同LLM的PPL计算差异的是KL散度,KL散度越大,两个分布之间的差异就越大。此外,高PPL表明LLM对真实内容存在认知幻觉,这些部分不应该被分割。

分析总结

Meta-Chunking的优越性:实验结果表明,Meta-Chunking策略在性能上显著优于传统的基于规则和语义的分块方法。

效率与成本优势:与当前的LLM方法相比,Meta-Chunking在效率和成本节约方面表现更优,特别是在处理时间和计算成本上。

动态组合策略的有效性:通过动态组合策略,Meta-Chunking在处理不同文本时实现了细粒度和粗粒度分块之间的有效平衡。

小模型与大模型的对比:小模型在处理效率上有优势,但在跨语言适应性方面存在局限。

实验结果



© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号