识典古籍是什么
识典古籍是什么
“识典古籍”是一个由北京大学与字节跳动数字人文开放实验室共同研发的古籍数字化平台,旨在通过现代技术手段实现古籍的智能化整理和在线阅读。该平台利用OCR(光学字符识别)、句读、实体识别、知识图谱构建等技术,对古籍进行数字化处理,提高了古籍整理的效率和准确性。
“识典古籍”平台收录了大量珍贵的古籍资源,包括儒家、道家、佛学以及文学经典等,涵盖了《四书五经》、《永乐大典》等重要典籍。目前,平台已上线超过2900部古籍,并计划在未来三年内完成一万种古籍的智能化整理工作。这些古籍不仅以文本形式呈现,还提供高清影像、注释、翻译等功能,用户可以自由切换繁简体,查看原文及译文,甚至进行高亮标记和笔记记录。
平台还引入了智能助手功能,通过大语言模型技术,用户可以与古籍进行对话,获取翻译、内容总结以及研究问题的建议。这一功能大大降低了古籍阅读的门槛,使得普通人也能轻松理解古文内容。
“识典古籍”平台对公众完全免费开放,致力于推广和传承中国传统文化。其界面设计简洁明了,操作流畅,支持多语言界面和语音朗读功能,适合全球用户使用。此外,平台还鼓励用户参与古籍的校勘和注释工作,形成互动式的学习和研究环境。
“识典古籍”通过技术创新和公益性质的结合,为古籍的保护、传承和利用提供了新的路径,同时也为学术研究和个人兴趣爱好者提供了丰富的资源和便捷的工具。
技术创新:OCR与知识图谱
识典古籍平台通过利用OCR技术和知识图谱构建,显著提高了古籍数字化处理的效率和准确性。具体来说:
OCR技术的应用
- 识典古籍平台采用了先进的OCR(光学字符识别)技术,对古籍的影印版文字进行单个切分、文字识别和顺序识别。这一过程包括单字检测、文字编码获取以及阅读顺序的确定。
- OCR技术的应用使得古籍扫描的准确率大幅提升,从行业平均的93%至94%提高到96%至97%。
- 平台还通过算法自动添加标点符号,并识别专有名词,进一步提高了文字识别的精度。
知识图谱的构建
- 识典古籍平台利用知识图谱技术,将古籍中的信息进行结构化整理,构建出完善的知识图谱。这不仅允许用户根据关键词检索信息,还能进行整体性分析和关联检索。
- 知识图谱化整理功能还识别了专有名词之间的关系,并将其转化为图谱形态,与百科、问答应用和旅游产品等结合,实现全方位的数字化赋能。
- 通过知识图谱,平台能够实现古籍信息的快速聚合,帮助用户更高效地获取和利用古籍中的知识。
综合技术的应用
- 除了OCR技术,识典古籍还运用了句读、实体识别等多种技术,进一步提升了古籍数字化的智能化水平。
- 平台支持发布任务、书元信息录入、文字识别、精校、校勘、结构整理、校点校对、实体校对和译文改写等环节,最终生成可共享的古籍文本。
重要古籍数字化
识典古籍平台收录的2900部古籍中,首次以数字化形式公开且具有特别的历史或文化价值的古籍包括《永乐大典》。具体来说:
《永乐大典》:这是明成祖(朱棣)永乐年间编纂的一部大型百科全书,保存了大量中国14世纪以前的文学、艺术、史地、哲学和应用科学等方面的丰富资料。国家图书馆藏的40册《永乐大典》首次线上公开,包括75卷内容,共涉及14个韵部、17个韵字、1800部书。这些内容在古籍数字化平台“识典古籍”上可以浏览,并且提供了高清图像、整体风貌及相关知识的展示。
其他经史子集等数字化古籍内容:除了《永乐大典》,识典古籍平台还收录了其他经史子集等数字化古籍内容,这些内容也是首次以数字化形式公开。
智能助手功能
识典古籍智能助手功能通过大语言模型技术实现与用户对话,具体包括以下功能:
自然对话:用户可以通过点击“问AI”或选中古籍文字请求解释,智能助手会判断用户的意图并获取相关上下文,通过大语言模型综合总结并给出回复。例如,用户可以提问“古人是如何说梦的?”或“我想找跟北京相关的古籍”,智能助手会通过语义检索识典古籍的资料库,给出解答,并直接在回答中显示引用的参考资料和原文链接。
文本翻译:当用户遇到不懂的古文时,可以点击“问AI”查看这句话的白话文翻译。这使得用户能够更轻松地理解古籍内容。
内容总结:智能助手可以为读者总结长篇古籍的主要内容,帮助用户快速把握古籍的核心信息。这一功能特别适用于需要快速了解古籍概要的用户。
研究问题提出:用户可以向智能助手提出深层次的研究问题,智能助手会先对问题进行意图分析,在已有古籍数据中获取相关上下文,然后通过大语言模型总结给出答复。这为用户提供了一种新的研究辅助方式。
跨古籍提问:用户可以进行跨古籍提问,智能助手会根据语义检索结果提供相关答案,并附上引用的参考资料和原文链接。这使得用户能够在一个平台上获取多个古籍之间的关联信息。
检索增强生成技术:为了提高答案的质量,智能助手采用了检索增强生成技术,要求模型基于可靠资料作答,并在界面提示用户注意查证。这有助于减少大语言模型可能产生的错误或“幻觉”。
语义检索:智能助手开发了语义检索功能,使助手在回答时能参考含义相关的古籍段落,确保上下文的相关性。这进一步提升了检索结果的准确性和实用性。
拓展知识:智能助手还可以与抖音百科联合,用户在阅读过程中可以看到对应的百科词条,获得超越当前文本的拓展知识。这为用户提供了一个更全面的知识支持。
用户参与机制
识典古籍平台通过多种方式鼓励用户参与古籍的校勘和注释工作,并且这种互动式学习和研究环境的效果显著。
平台提供了丰富的辅助阅读功能,如字典释义、白话译文、繁简转换、英文界面、笔记讨论、实体百科、古籍AI助手、可视化实体关系图等,这些功能不仅提升了古籍阅读的效率和趣味性,还为用户提供了参与校勘和注释的工具。例如,平台上的自动古籍文字识别(OCR)、自动标点、自动命名实体识别、自动文言文-白话文翻译等人工智能工具,以及协作校对工具,使得用户可以更高效地整理古籍。
平台还鼓励拥有文献的学者自行上传文献,并允许用户参与再创作和再阐释。这种开放性和互动性不仅扩大了古籍的规模,还增强了平台的“纠错”能力,提高了对普通读者的友好度。例如,刘钰昕作为志愿者,参与了《春秋左传注》《史记》《汉书》等古籍的校对工作,她为了制定魏晋南北朝官职标注规则,查阅了大量的文献,详细翻阅了《文献通考》的“职官考”二十一考。这表明,平台不仅为用户提供了参与古籍整理的机会,还通过实际案例展示了用户在这一过程中的积极贡献。
此外,平台还为学者们提供了学术交流论坛和研究工具,帮助他们更好地进行古籍研究。这种开放共享的模式不仅促进了古籍文化的传承和研究,还降低了古籍研究的门槛,使更多的人能够接触并学习古籍。
识典古籍平台通过提供先进的技术工具、开放的上传和再创作功能以及丰富的辅助阅读功能,成功地鼓励了用户参与古籍的校勘和注释工作。
免费开放政策
识典古籍平台对全球用户免费开放的具体政策如下:
免费开放:识典古籍平台自2022年10月上线以来,一直向公众免费开放。用户无需支付任何费用即可享受所有功能和资源。平台提供的所有古籍资源均为免费且公开,便于大众访问。
支持的语言种类:识典古籍平台主要支持中文(简体和繁体)的阅读和检索。平台具备主题词检索和繁简体转换功能,便于专业研究人员和古籍爱好者使用。
语音朗读功能:目前没有明确的证据表明识典古籍平台提供语音朗读功能。虽然平台提供了智能助手功能,但主要集中在文本翻译、文本总结和跨古籍提问等方面。