问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

如何识别文档的层级结构

创作时间:

作者:

@小白创作中心

如何识别文档的层级结构

引用

CSDN

1.

https://blog.csdn.net/yifangyun_360/article/details/144396196

文档层级结构识别是文档处理领域的重要技术，广泛应用于PDF转Markdown、目录生成等场景。本文深入探讨了Detect-Order-Construct、HRDoc和DocParser三个代表性方案，详细解析了它们的技术细节和实现思路。

Detect-Order-Construct方案

该方案的核心在于"构建（Construct）"阶段，主要任务是从检测到的章节标题生成一个表示层次结构的目录树。

具体实现思路如下：

从所有页面对象的多模态表示中提取每个章节标题的多模态表示。将所有章节标题的表示输入到一个Transformer编码器中，以进一步增强这些表示。此处的输入序列是根据顺序模块预测的正确阅读顺序排列的，因此可以加入位置编码来传达阅读顺序信息。
为了包含阅读顺序序列中的相对位置信息并适应文档中较大的页码规模，使用了旋转位置编码（Rotary Position Embedding, RoPE）。
引入一个树感知的目录关系预测头来预测这些章节标题之间的目录关系，该预测头包含两个不同类型的关系预测头，分别用于父子关系和兄弟关系。每个关系预测头使用一个多类（k类）分类器来计算分数，估计secj成为seci的父节点或者兄弟的可能性。

HRDoc方案

该方案提出了一个新的数据集HRDoc和一个基于编码器-解码器的层次化文档结构解析系统（DSPS）。

在关系建模上，将所有semantic units分为14个类别：{Title, Author, Mail, Affiliation, Section, First-Line, Para-Line, Equation, Table, Figure, Caption, Page-Footer, Page-Header, and Footnote}，关系分为3类{Connect, Contain, Equality}。

在编码器上，使用多模态双向编码器，输入嵌入包括句子嵌入、布局嵌入、一维位置嵌入、视觉嵌入和页面嵌入。通过Transformer架构的多模态双向编码，生成每个语义单元的表示。句子嵌入使用Sentence-Bert模型，布局嵌入使用LayoutLMv2，视觉嵌入使用ResNet-50和FPN，页面嵌入使用绝对位置嵌入。

在解码器上，使用GRU网络捕捉跨页面的信息交换，并通过注意力机制计算每个语义单元的加权隐藏状态，引入软掩码操作，利用领域特定知识调整注意力分布。

在关系分类器上，在获得每个语义单元的父节点后，使用线性投影函数对每个子父对的关系进行分类。

DocParser方案

该方案采用较为粗暴的方法，先将各个区块截取出来设定为entity，然后定义relations={parent of，followed by, null}进行分类。启发式规则基于边界框的重叠来选择父子关系列表，然后再送入监督模型Mask R-CNN做分类。

其中，弱监督（WS）使用的数据集带有用于弱监督的噪声标签。

总结

本文主要讲了关于文档层级结构识别的三个代表方案：Detect-Order-Construct、HRDoc(一个数据集)和DocParser方案，三个方案都是有监督思路，定义了不同的类别(parent of 居多)，然后做分类模型。

但实际上，在真实落地的过程当中，我们往往很少会有这类层级结构的分类数据，并且文档十分多样，模型的通用性不会太好。所以更多的还是说使用一些规则的方式进行判定（虽然显然有很多bug）。

热门推荐

304L和316L，钢厂工人直言：家用不锈钢的新版“智商税”

304L和316L，钢厂工人直言：家用不锈钢的新版“智商税”

万千气象看辽宁：税收助力老工业基地发展

万千气象看辽宁：税收助力老工业基地发展

明日方舟开服主线剧情揭秘

明日方舟开服主线剧情揭秘

Excel自动填充日期和时间的多种方法

Excel自动填充日期和时间的多种方法

让孩子参与到自然中去：教育意义上的自家养殖项目

让孩子参与到自然中去：教育意义上的自家养殖项目

认真看，这个通道不能占！

认真看，这个通道不能占！

甲状腺疾病多久复查一次

甲状腺疾病多久复查一次

吃了冰饮胃疼怎么回事

吃了冰饮胃疼怎么回事

低嘌呤黄酒有哪些？

低嘌呤黄酒有哪些？

心学问青少年教育，习惯的魔力：家庭教育中的良好习惯养成

心学问青少年教育，习惯的魔力：家庭教育中的良好习惯养成

猴头手串搭配指南：如何选择与佩戴，以及保养方法一应俱全

猴头手串搭配指南：如何选择与佩戴，以及保养方法一应俱全

探寻"宝塔镇河妖"下一句的奥秘：传统文化与现代解读

探寻"宝塔镇河妖"下一句的奥秘：传统文化与现代解读

绘本故事《井底之蛙》：从寓言到教育的完美演绎

绘本故事《井底之蛙》：从寓言到教育的完美演绎

上海硅酸盐所在铽铝石榴石（TAG）基磁光陶瓷方向取得系列研究进展

上海硅酸盐所在铽铝石榴石（TAG）基磁光陶瓷方向取得系列研究进展

曹雪芹《红楼梦》里的这首诗歌，道尽了欲望的本质，发人深省

曹雪芹《红楼梦》里的这首诗歌，道尽了欲望的本质，发人深省

妻子不愿再生，丈夫执意想要：什么因素造成了男性的多子情结？

妻子不愿再生，丈夫执意想要：什么因素造成了男性的多子情结？

C罗职业生涯五次转会：从曼联到利雅得胜利，争议不断的足球巨星

C罗职业生涯五次转会：从曼联到利雅得胜利，争议不断的足球巨星

科普 | “合谷”止痛显神通

科普 | “合谷”止痛显神通

三峡大瀑布旅游攻略：自由行最佳路线及跟团游推荐

三峡大瀑布旅游攻略：自由行最佳路线及跟团游推荐

风湿性心脏病什么症状下要做手术

风湿性心脏病什么症状下要做手术

S5720交换机恢复出厂后开启Web登录的完整指南

S5720交换机恢复出厂后开启Web登录的完整指南

正念呼吸疗法训练步骤

正念呼吸疗法训练步骤

翻译项目管理软件有哪些

翻译项目管理软件有哪些

痛点、爽点、槽点/赞点、特点、亮点、卖点、爆点，这些有什么区别和联系？

痛点、爽点、槽点/赞点、特点、亮点、卖点、爆点，这些有什么区别和联系？

2025白酒开局受挫，迷雾重重……

2025白酒开局受挫，迷雾重重……

小柴胡颗粒饭前吃还是饭后吃？专业解答

小柴胡颗粒饭前吃还是饭后吃？专业解答

如何轻松打开和使用Mac电脑中的.dmg文件指南

如何轻松打开和使用Mac电脑中的.dmg文件指南

钢坝闸门保养指南：确保长效运行与安全

钢坝闸门保养指南：确保长效运行与安全

这届年轻人的花式社交，谁懂？

这届年轻人的花式社交，谁懂？

分享10款基围虾美食，镇静安神，降脂降压，被家人夸爆的下饭菜

分享10款基围虾美食，镇静安神，降脂降压，被家人夸爆的下饭菜

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号