助推中国古代典籍数字化传播 AI古籍语料库南京高校取得新突破
助推中国古代典籍数字化传播 AI古籍语料库南京高校取得新突破
日前,南京农业大学传来喜讯,王东波教授团队在“语言计量与数字人文”暨第七届计量语言学学术研讨会上正式发布了基于《二十四史》及其现代汉语翻译文本构建的词性标注语料库。这一成果标志着AI在助推中国古代典籍数字化传播方面迈出了坚实的一步,让古籍中的智慧得以跨越时空,与现代文明进行深度对话。
据悉,该语料库是目前最大规模且经过精加工的古代汉语语料库,涵盖了《二十四史》的古代汉语语料共计1,102,657字,以及对应的现代汉语翻译语料1,415,311字,总体规模超过250万字,被誉为古代汉语版的“人民日报语料库”。
近年来,AI模型在多个领域大放异彩,但在古代汉语处理方面仍面临诸多挑战。现有的古代汉语语料库规模较小,标注深度有限,且难以实现与现代汉语的对照。王东波教授团队克服诸多困难,经过严谨的数据清洗、标注与对齐,运用先进的语言模型技术,从《二十四史全译》中萃取了高质量的双语对齐句子对。王东波教授告诉记者,为了构建这一跨语言词性标记集,团队综合了南京师范大学的先秦词性标记集和北京大学的人民日报语料词性标记集,并联合了南京大学、南京师范大学、南京理工大学及中国国家图书馆等多家单位的力量。经过多轮人工标注、审核以及语言模型与人工的双重校验,最终产出了3万余条同步词性标注的语料,有代表性地全面覆盖了《二十四史》的古代汉语与现代汉语翻译文本。
据介绍,该数据库的一大亮点是,通过对古现双语平行句子进行同步词性的标注,形成了直观的对照关系。例如,在古文句子“虞臣/nr/,/w/廣東/ns/順德/ns/人/n/。/w/”中,词性标记清晰地展示了每个词的类别,如人名(nr)、地名(ns)等,与现代文句子中的对应部分形成了直接的对应关系。这种直观的对照方式极大地便利了研究者对古代汉语语法结构、词汇用法以及语义变化的深入探究。
王东波团队的研究成果不仅填补了此前模型标注数据的短缺,更提供了高质量的指令微调语料,显著提升了大模型在古代汉语处理上的能力。这将为机器翻译、智能问答等应用场景提供更加精准的答案,同时也让大众能够更轻松地接触和理解古代文献,让沉睡在“故纸堆”中的文化瑰宝重新焕发活力。据介绍,目前该成果已开源于王东波团队构建的“中国古代典籍跨语言知识库”平台(xunziallm.njau.edu.cn),古籍研究人员、古籍爱好者均可申请免费获取并使用该语料库。
据悉,这一语料库的发布,为科学研究、产业应用以及文化教学与传播工作提供了宝贵的基础资源。王东波认为,文化的传承与创新是一项长期而艰巨的任务,语料库的发布为研究者提供极大便利,能够很好地助力非遗传承与保护,更为公众打开了一扇了解历史的崭新窗口。
本文原文来自人民网