问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI解锁古代文本或将改写历史

创作时间:
作者:
@小白创作中心

AI解锁古代文本或将改写历史

引用
科学网
1.
https://blog.sciencenet.cn/blog-41174-1466720.html

人工智能正在为解读古代文本开辟新的可能性。从烧焦的罗马卷轴到破损的楔形文字泥板,神经网络正帮助研究人员获取数百年来未曾有过的大量数据。


“碎片复原”(Fragmentarium)项目正在对数万片楔形文字泥板进行数字化处理,比如这块天文文本泥板。图源:慕尼黑大学(Ludwig-Maximilians-Universität)

2023年10月,一封电子邮件改变了费德里卡·尼科拉尔迪(Federica Nicolardi)的研究生涯。邮件中展示的是一片在公元79年维苏威火山爆发时被烧毁的纸莎草卷轴残片。这些卷轴于18世纪在意大利庞贝古城附近的赫库兰尼姆(Herculaneum)一座奢华的罗马别墅遗址中被发现,几个世纪以来,许多卷轴在尝试展开时已经支离破碎。尼科拉尔迪是意大利那不勒斯大学的一位纸莎草文献学家,她参与了一项利用人工智能(AI)解读这些无法识读内容的工作。最新的成果令人振奋:图片展示的纸条状纸莎草上布满了整齐的希腊字母,在深色背景的映衬下格外清晰,横跨近五栏。


在维苏威火山爆发中被烧焦的卷轴一旦打开就会遭到损坏。图源:肯塔基大学埃杜斯实验室(EduceLab, University of Kentucky)

人工智能技术揭示了这片来自赫库兰尼姆卷轴的烧焦纸莎草条上的字迹。图源:维苏威挑战赛(Vesuvius Challenge)

“太不可思议了,”尼科拉尔迪感叹道,“我当时想,‘这真的要实现了。’”她意识到,纸莎草学将从此改变。“那一刻,我真切地觉得‘我正在经历一件将成为我所在领域历史时刻的大事’。”她正在阅读的是一段两千年来完全无法触及的完整文本内容。

这个名为“维苏威挑战赛”的项目展示了人工智能如何准备重塑我们看待古代世界的方式。人工神经网络正被用于解读各种古代文本,从经典的希腊语和拉丁语,到中国的甲骨文。它们正在梳理浩如烟海的档案资料,填补缺失和无法识读的字符,解码那些几乎没有任何留存痕迹的稀有失传语言。

这些成果有望带来大量新文本,为学者们提供数百年来都不曾拥有过的丰富数据。更重要的是,由于人工智能工具能够识别比任何人所知晓的都更多的语言,存储更多的信息,并且能够自行发现文本中的统计模式,这些技术有望为探索古代资料提供一种全新的根本方法。尼科拉尔迪表示,这不仅会改变“我们想要解答的问题”,还会改变“我们能够提出的问题”。

古代文本的复原

几十年来,计算机一直被用于对数字化文本进行分类和分析。但当前令人振奋的情况源于神经网络的应用,尤其是“深度”神经网络。21世纪10年代,将深度学习应用于古代文本的早期尝试是基于文本的数码照片展开的。卷积神经网络(CNNs)能够从图像中捕捉网格状数据,被用于光学字符识别。同时,循环神经网络(RNNs)开始在搜索、翻译以及填补已转录文本中的空白方面展现出巨大潜力。

首个展现人工智能潜力的大型项目始于2017年英国牛津大学的一次合作。研究人员最初用公元前7世纪到公元5世纪间书写的数万篇希腊铭文训练了一个基于循环神经网络的模型,名为“皮提亚”(Pythia)。然后,他们向该模型展示它从未见过的文本,并让它对缺失的单词或字符提出建议。

2022年,他们又推出了一个名为“伊萨卡”(Ithaca)的模型,该模型还能对一篇未知文本的年代和出处提出建议。在测试中,“伊萨卡”对古代文本中人工制造的空缺进行复原的准确率达到62%,而人类专家的准确率仅为25%。但在“伊萨卡”建议的辅助下,专家们取得了最佳效果,填补空缺的准确率达到72%。“伊萨卡”还能以71%的准确率识别铭文的地理来源,并将其年代确定在公认估算值的30年误差范围内。

浩瀚的档案海洋

与此同时,韩国研究人员在处理世界上规模最大的历史档案之一时,面临着截然不同的挑战:这些档案是涵盖了从14世纪到20世纪初27位朝鲜国王在位时期的数十万篇详细的日常记录。“数据量非常庞大,”纽约大学领先的机器翻译研究员赵京勋(Kyunghyun Cho)说道。赵与韩国同事合作,训练了一个基于Transformer模型的网络来自动翻译这些记录。人类专家认为,人工智能翻译的关于国事访问、惩处叛徒以及音乐会等事件的描述,比古韩文译本要准确得多、可读性也更强,在某些情况下甚至比现代译本更好。

在另一个层面上,研究人员正在利用神经网络处理那些仅有少量文本留存下来的古代语言。例如,希腊帕特雷大学的卡捷琳娜·帕帕瓦西莱乌(Katerina Papavassileiou)及其同事利用循环神经网络(RNN)修复了来自克里特岛克诺索斯的1100片迈锡尼泥板上缺失的文本,这些泥板上写着公元前2千纪用线形文字B书写的关于羊群的账目。帕帕瓦西莱乌希望有朝一日能利用基于线形文字B训练的模型来处理线形文字A,线形文字A是米诺斯文明使用的一种文字,它与线形文字B有许多相同的符号,但从未被破译过。


来自米诺斯文明(公元前15世纪)带有线形文字A的泥板,这种文字从未被破译过。这些泥板发现于克里特岛的阿尔恰内斯。图源:德阿戈斯蒂尼/盖蒂图片社

解读无法识读的内容

列克星敦市肯塔基大学的计算机科学家布伦特·西尔斯(Brent Seales)及其同事在维苏威挑战赛参与者的协助下,正在攻克一项看似不可能完成的任务——解读根本看不见的文字。2023年3月,他们在硅谷企业家纳特·弗里德曼(Nat Friedman)的支持下发起了维苏威挑战赛,该赛事设置了高额现金奖励。2024年2月,计算机科学专业的学生优素福·纳德(Youssef Nader)、卢克·法里托(Luke Farritor)和朱利安·席利格(Julian Schilliger)因呈现出16栏清晰可读的文本而共同获得了70万美元奖金。


2019年,一片赫库兰尼姆卷轴在英国钻石光源同步加速器处接受扫描。图源:杰夫·卡迪克/法新社/盖蒂图片社


到2024年2月维苏威挑战赛获奖者揭晓时,在这片烧焦的赫库兰尼姆卷轴内,近16栏希腊文字得以呈现。图源:维苏威挑战赛

从那以后,参赛者们一直在纸莎草文献学家的帮助下努力改进他们的墨水检测算法。与此同时,西尔斯的团队正在扫描更多的卷轴,并希望机器学习能够加快虚拟展开这一步骤。他表示,这是目前限制参赛者可用数据量的瓶颈所在。他乐观地认为,借助人工智能驱动的展开技术,有望及时赶得上有人赢得2024年大奖,该奖项奖金为20万美元,用于奖励解读四卷卷轴中90%的内容。“一旦实现自动化,基本上就能大规模展开了,”西尔斯谈及卷轴展开时说道,“我们即将迎来这一时刻。”

事实上,西尔斯想要解读整个藏书库的内容。赫库兰尼姆有数百卷未打开的卷轴被收藏着——大部分在那不勒斯,但也有一些在巴黎、伦敦和牛津。“对于纸莎草文献学家来说,这将是来自古代世界的、比他们一个世纪以来所见都要多的新文本,”他说道。


一个动画展示了墨水检测模型是如何被用于解读赫库兰尼姆卷轴上的文字的。图源:维苏威挑战赛

这种方法也开启了获取其他难以触及资料的大门,西尔斯称之为“隐形图书馆”。这其中包括藏在中世纪书籍装订内或古埃及木乃伊裹布内的文本。该团队已经从华盛顿史密森尼博物馆收藏的一卷未打开的埃及卷轴上获取了数据,并且正在商讨分析约旦佩特拉在公元7世纪一场火灾中被烧毁的纸莎草文献。

信息洪流

即便只是揭示四卷卷轴上的文字,对于纸莎草文献学家来说也将是一个巨大的挑战。“我们将有400栏希腊文文本要解读,”尼科拉尔迪说道,“我们需要更多资金来做这件事,因为纸莎草文献学家的数量不够。”西尔斯指出,传统上,纸莎草学“并非一种协作性的文化”,但“我们很快就会产出比整个纸莎草学界能够处理的量还要多的文本”。这就引发了诸如谁应该有权获取这些数据以及谁来监督成果发表之类的问题。“我们很可能会创建一个比现在规模大得多的全球学界共同体。”

如果大量新文本突然可供非专业人士使用人工智能工具进行研究,也会存在准确性和可重复性方面的担忧。例如,存在神经网络产生虚假结果的“幻觉”可能性。西尔斯及其他人强调,有必要组建由人文领域专家和计算机科学家构成的多学科团队开展工作。另一种保障措施是将所有数据——原始文本、扫描件以及用于分析它们的训练集和算法——都设为开源,西尔斯将其描述为数字溯源链。

“我们必须建立学术、文化和法律方面的机制,”牛津大学博德利图书馆馆长理查德·奥文登(Richard Ovenden)说道,该图书馆收藏了几卷赫库兰尼姆卷轴。但他认为,任何担心人工智能会挑战传统学术和专业知识的想法都是没有根据的。“人工智能所做的是为纸莎草文献学家提供他们原本无法获取的数据来开展研究,”他说道,“这使得他们的工作比以往任何时候都更加重要。”

其他领域也面临着类似的变化。德国慕尼黑大学古代近东文学专家恩里克·希门尼斯(Enrique Jiménez)与伦敦大英博物馆合作,拍摄了25000片楔形文字巴比伦泥板(大多可追溯到公元前1千纪后半叶),以便让人工智能能够解读这些文本,最近还获得了资金用于拍摄另外30000片泥板。在全球范围内,到目前为止,大约有100000片泥板已经被数字化了,而博物馆中可能还有500000片泥板常常未被解读而闲置着。该团队正在开发神经网络,用于从照片中识别楔形文字符号并确定其所属年代。这个名为“碎片复原”(Fragmentarium)的项目已经发现了《吉尔伽美什史诗》大约20行新内容,以及30份此前未知的歌颂巴比伦城的赞美诗副本。“这真的太令人惊叹了,”希门尼斯说道,“要是没有‘碎片复原’项目,要发现这么多手稿可能得花上几十年时间。”


在这些古巴比伦晚期泥板残片上发现了此前未知的《歌颂巴比伦》赞美诗的诗句。图源:大英博物馆托管会

潜在的信息洪流令人兴奋,但也“令人望而生畏”,他说道。“我认为在未来10年或20年里,我们应该能把所有东西都数字化。可用资料的数量将呈指数级增长。”

提出新问题

这种数量上的飞跃可能会开启利用人工智能理解古代世界的新方式。通过探索规模空前的海量数字化文本档案,研究人员不仅能够更好地研究单篇文本,而且能够针对创作这些文本的社会提出更宏观的问题。

“我们将不得不改变思维方式,”尼科拉尔迪预测道,“这不仅仅关乎文本,还关乎整个文化。”

这种转变已经开始了。在韩国,有几个团队正在挖掘汉字档案,他们并非通过阅读这些档案,而是让人工智能模型梳理原始文本,以识别政治趋势和关联。朴镇永在去年8月于曼谷举行的计算语言学协会年会上报告称,他能够利用这项技术识别朝鲜王朝各位国王的统治风格。

研究人员也越来越多地将各项任务结合起来,并将数据集整合到更大的模型中。对于赫库兰尼姆卷轴,西尔斯希望利用人工智能为纸莎草文献学家提供填补转录文本空缺的建议。不同的地理区域和时间段也能被连接到更大的系统中,以便在数据集之间获取更广泛的见解并相互借鉴。一个基于104种现代语言(包括希伯来语和阿拉伯语)训练的模型,在翻译古代美索不达米亚的阿卡德语(希伯来语和阿拉伯语均源于此语言)时表现得出人意料地好。赵京勋正在致力于将日本、韩国、中国和越南这些共享汉字的语言联系起来。不过,他最终认为这些见解可能具有全球性意义。他表示,最终目标将是“构建一个能够利用所有这些跨时空联系的系统”。

朴镇永希望这类研究能够超越简单的数据挖掘。到目前为止,机器学习一直被用于观察有趣的模式和数字趋势,但经过进一步训练,他希望类似聊天机器人的生成式人工智能工具能够围绕历史资料进行积极的推理和对话,“进而生成新的、虽为虚构但却有趣的数据”。

想象一下,如果像ChatGPT这样的聊天机器人能够基于那些新解读出来的海量文本进行训练。未来,如果我们想知道古代希腊人、韩国人或巴比伦人是怎么想的,或许我们只需问问它就可以了。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号