问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

陕西省图书馆打造民国报纸知识资源数字化平台,实现文献知识化服务

创作时间:
作者:
@小白创作中心

陕西省图书馆打造民国报纸知识资源数字化平台,实现文献知识化服务

引用
1
来源
1.
https://www.nlc.cn/web/shouye/zhongdianxiangmu/quanguozhihuitushuguantixi/chuangxinyingyonganli/20240924_2641335.shtml

陕西省图书馆开发的“民国报纸知识资源细颗粒度文献数字化平台”,通过先进的知识图谱技术和数字化加工手段,对馆藏民国报纸进行系统化整理和知识化服务,为读者提供了一个便捷高效的信息获取平台。

一、项目背景

“十四五”期间,文化和旅游部面向全国公共图书馆系统组织实施了全国智慧图书馆体系建设项目。陕西省图书馆依据《国家图书馆智慧图书馆知识资源数据建设指南》,选取馆藏民国报纸中文献研究价值、读者调取利用率较高的报纸资源,进行精细化标引和主题化分类,形成智慧化知识图谱。

平台在实现基本建设成果展示的基础上,通过先进的知识图谱技术,完成对细粒度文献知识关系的呈现及数据文献的关联和在线查阅。通过开展知识资源细颗粒度建设和标签标引,制作完成的馆藏特色数字资源数据可部署在本地服务器及互联网端进行长期使用,为广大民众提供长期的信息获取服务、个性化、智慧化服务。

二、主要做法

(一)项目建设内容及实施过程

1.建设内容

陕西省图书馆馆藏民国陕西地方报纸61种,其中《西京日报》《西京平报》《解放日报》等重要大型报纸保存较为完整。2022年至今,重点围绕馆藏《西京日报》开展平台建设。本项目选取《西京日报》1933年3月21日正式创刊至1949年4月15日止所发行的报纸共计约2.6万版进行细粒度标签标引建设,累计完成25.9万条数据。

项目建设参照《智慧图书馆知识资源数据建设指南》标准执行,进行了细粒度文献篇章、主题词及关键词标签著录标引,完成基础资源著录、细粒度文献著录、知识内容抽取标引及知识图谱的构建。

2.实施过程

(1)制定流程

在准备阶段,通过分析和梳理建设指南要求,明确资源的结构单元和著录粒度,制定了报纸知识资源细颗粒度文献建设的标准化流程。主要包含基础资源著录、细粒度文献著录、知识内容抽取标引及知识图谱构建等内容。严格按照国家标准建设指南的建设要求,对加工的对象数据进行标准化、流程化的实施过程管理。严格把控项目进度,多节点、多阶段工作成果提交,随时查看开发进度。

(2)数字化加工采集

根据指南建设标准进行数字化扫描工作。对民国报纸数字化加工流程每一道工序严格把关,保证了数字化民国报纸加工成果的质量。

(3)分步实施

对基础数字资源的结构单元,标引字段、细粒度文献著录、知识内容抽取规则以及知识图谱呈现方式进行分项实施。

(4)标引信息

①基础数字资源著录:基础文献记录标识号、正题名、出版日期、卷期、版次、中图分类、主题词或关键词、出版者名称、出版地、内容形式、媒体类型、格式、语种、适用对象、出版频率、馆藏范围、数据提交单位、所属任务年份。

②细颗粒度文献著录:记录标识号、基础文献记录标识号、出版日期、起始页文件名、结束页文件名、对象文件路径、结构类型、语种、正题名、并列正题名、其他题名、栏目名称、责任者、责任方式、责任者单位、内容、附注、版次、摘要、分类号、关键词、人物名称、机构名称、地理名称、事件名称、图表记录标识号、图表数量。

③知识内容抽取标引:利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从馆藏民国报纸中抽取人物、机构、事件、地理名称以及其他具有标目意义的内容,开展知识标引工作,以形成基于文献知识内容的语料库。

(5)展示平台

利用多媒体交互技术、Neo4j数据库和D3.js知识图谱技术,基于B/S架构模式,对大量细粒度文献数据进行可视化交互呈现和文献关联展示。并能够对报纸原貌进行完整呈现和内容定位。同时,设计了能够对大规模数据进行简体、繁体检索的检索引擎,以便于用户进行信息的快速检索和查询。

(二)项目功能作用及技术应用

1.功能作用

平台能够支持文献资源的类别管理、导航树维护、数据的增、删、改、查等功能。前端成果能够通过后台进行统一维护和管理,基于B/S架构模式,兼容多种主流浏览器进行在线访问。采用的知识图谱技术,能够对大量细粒度文献数据进行可视化交互呈现和文献关联展示。


图1 平台首页

(1)信息检索:平台检索系统支持大规模数据简体、繁体检索。支持对检索结果进行统计。

(2)数据呈现:支持对报纸原貌电子数据和元数据信息在线进行浏览,并可进行权限控制管理。

(3)资源访问:普通用户通过互联网即可进行平台访问和资源浏览。后台支持对访问权限进行控制管理。

(4)数据管理:用于数据的管理、数据上传、数据修改、数据维护,权限分配控制等。支持数据排序、数据隐藏、停用。

(5)数据可视化统计:针对数据类型进行分类统计,通过可视化图表进行呈现,让统计数据结果一目了然。

(6)知识图谱交互展示:多维度可交互的知识图谱展示、细粒度文献关联展示。


图3 知识图谱


图4 原版报纸检索定位

(7)数据表导出:支持字段信息批量导出为xlsx常用格式,利于管理员进行数据统计和信息查看。

2.技术应用

平台搭建了一个基于知识图谱的智能搜索系统,运用了多种先进技术,包括Neo4j数据库构建知识网络、D3.js构建关系图谱、SpringBoot搭建后台服务、NLP自然语言处理、Elasticsearch高级搜索以及PDF.js搜索定位。

(三)项目运行管理

1.平台运行:平台部署在商业云服务器,可通过互联网进行对外开放和管理。

2.用户访问:用户可通过发布的网络地址进行平台内容访问,同时平台后台支持数据访问权限控制和管理。

3.数据管理:通过对象数据采集、批量上传、知识数据提取标引、元数据著录、数据库后台进行数据的新增、修改、删除、查找以及备份等,最终形成可交付数据。

4.数据安全:支持数据权限控制管理、数据备份。可实现内部网、外网重点网段的隔离控制。支持用户角色权限分配、支持操作日志管理监控。

5.平台推广:通过官方公众号、宣传展板、门户站点、新媒体等途径进行宣传和推广。

(四)项目建设资金及日常运营维护资金投入

项目建设资金及经费来源:项目分期建设完成,一期建设资金225万元,完成15万条数据标引;二期建设资金150万元,完成10万条数据标引。项目经费来源于中央财政补助。

日常运营维护资金投入:为确保系统稳定及用户体系的流畅性该系统租用商业云服务器和存储,日常维护费用由陕西省图书馆系统运营费中支出。

三、实际效果

平台建设采用统一的国家标准,并充分利用先进的数字交互技术,自上线以来,满足了读者多样化的文化需求,改变了群众获取文化资源的方式,为人民群众获取信息提供了更多便利。同时,基于互联网数据库平台的信息传播扩大了馆藏文献资源的服务范围,提升公共文化信息资源的利用率,数据管理更加高效和便捷,更加强了公共文化资源的信息共享。

(一)知识图谱构建关联

项目通过国内领先知识图谱技术揭示文献颗粒化关系成果;细粒度文献内容碎片化标引与抽取,原版关联文献在线浏览呈现。

(二)深度挖掘知识内容

知识颗粒化内容深度挖掘,采用互联网UI交互技术呈现多维度关系。

(三)数据制作标准统一规范

数据制作严格参照国家图书馆《智慧图书馆知识资源数据建设指南》进行规范建设,统一字段、统一标准。

(四)数据检索结果高亮显示

关键词检索能够高亮显示检索信息,检索结果支持自动统计。

(五)文献内容关联展示

相关文献可查看当前碎片化关联文章内容,也可查看原貌。

四、经验启示

(一)创新经验

项目运用数据库平台、知识谱图谱构建与交互技术,以其先进性、开放性和便捷性,在创新大众文化服务中寻找到了突破点,促进了地方文献资源的发展以及服务模式的升级转型,对于促进地方文献高效利用,提高公共文化资源的利用率起到了重要作用。

(二)借鉴价值

元数据建设参照《智慧图书馆知识资源数据建设指南》规范制作,在平台应用发布同时数据完整导入全国智慧图书馆体系建设陕西基础支撑平台,便于国家对细粒度文献资源的统一收割和管理,保证数据的互通性和共享性。

在资源应用方面,通过互联网、交互式数据库展示平台进行资源应用服务,读者仅需访问平台站点即可使用陕西省图书馆民国报纸知识资源细颗粒度文献数字化平台服务,并能够支持大规模数据简体、繁体检索服务。

项目建设充分利用知识图谱技术,通过对文献的深度解析和关联,实现信息的精细化分类和整合,为研究者提供更为精准、全面的地方知识。该技术不仅提升了文献的检索效率,还促进了地方文献的高效利用,对地方文献资源的挖掘和利用具有深远价值。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号