AI能够评议科学文献吗?
AI能够评议科学文献吗?
人工智能在科研领域的应用正日益广泛,特别是在处理和总结大量科学文献方面展现出巨大潜力。然而,这一技术在带来便利的同时,也引发了一系列关于准确性和可靠性的担忧。本文将探讨AI如何改变科学文献综述的方式,以及这一过程中面临的挑战。
在萨姆·罗德里克斯(Sam Rodriques)还是神经生物学研究生时,他就意识到科学界存在一个根本性的局限:即使所有理解人类细胞或大脑所需的信息都已存在,人类也可能无法完全掌握这些知识,因为没有人能够阅读和理解所有相关文献。
五年后,罗德里克斯表示,借助人工智能(AI),他离解决这个问题更近了一步。2024年9月,他和他的团队在初创公司未来之家(FutureHouse)开发了一套基于人工智能的系统,可以在几分钟内生成比维基百科页面更准确的科学知识综述。该团队迅速生成了大约17,000个人类基因的维基百科式词条,其中大部分此前都没有详细的百科页面。
罗德里克斯并非唯一尝试用AI辅助科学总结的人。多年来,学者们一直在努力加快研究成果汇编成综述的过程。英国伦敦国王学院的研究综合学专家伊恩·马歇尔(Iain Marshall)指出,传统的综述工作量巨大且往往在撰写时就已经过时。随着大语言模型(LLM)的兴起,人们对综述任务自动化产生了新的兴趣。
一些新型的基于AI的科学搜索引擎已经可以通过查找、分类和总结出版物来帮助撰写陈述性文献综述。然而,它们还不能生成高质量的系统综述,这类综述需要严格的论文搜索和评估程序,通常还需要进行荟萃分析来综合结果。大多数研究人员认为,这些综述要实现完全自动化还需要很长时间。
与此同时,研究人员也担心AI工具可能会导致更草率、不准确或误导性的综述。伦敦大学学院的詹姆斯·托马斯(James Thomas)表示,这可能会破坏几十年来关于有效证据综合的研究成果。
计算机辅助综述
计算机软件长期以来一直在帮助研究人员搜索和解析研究文献。在大语言模型出现之前,科学家就已经使用机器学习和其他算法来帮助识别特定研究或快速提取论文发现。然而,ChatGPT等系统的出现引发了将大语言模型与其他软件结合以加速这一过程的热潮。
直接要求ChatGPT撰写学术文献综述是不现实的。这些大语言模型通过大量文本训练生成内容,但大多数商业公司不会透露训练数据。马歇尔指出,这些模型可能会混合使用可信的学术研究、不准确的博客文章以及其他来源的信息,无法判断哪些是最相关、最高质量的文献。此外,大语言模型容易产生幻觉错误,包括捏造学术参考文献。
一种更复杂的方法是将预选论文的语料库上传到大语言模型,并要求其仅基于这些文献提取见解。这种方法可以减少幻觉现象,但无法完全避免。过程可以设置为让大语言模型对其信息来源作引用标注。
像"共识"(Consensus)和"引导"(Elicit)这样的专业AI科学搜索引擎就是基于这种"检索增强生成"方法。"引导"总部位于美国加州奥克兰,能够搜索约1.25亿篇论文;"共识"公司则能够搜索超过2亿篇论文。这些系统通常将用户的问题转化为在"语义学者"(Semantic Scholar)和"公共医疗"(PubMed)等学术数据库的搜索,并返回相关度最高的结果。
然后,大语言模型会对每项研究进行总结,并将其综合为一个注明出处的答案;用户可以通过各种选项来筛选希望包含的研究成果。新加坡管理大学数据服务部门负责人亚伦·郑(Aaron Tay)说:"至少它们引用的内容是完全真实的。"
丹麦南丹麦大学的博士后研究员穆什塔克·比拉尔(Mushtaq Bilal)表示,这些工具确实可以提高阅读和写作效率。比拉尔为学者提供AI工具培训,并设计了自己的AI工具"研究搭档"(Research Kick)。另一款名为"科学引用"(Scite)的AI系统可以快速生成支持或反驳某种主张的论文分类。"引导"等系统还可以从论文的不同部分(如方法、结论)提取见解。比拉尔认为:"你可以将大量劳动外包出去。"
但是,比拉尔指出,大多数AI科学搜索引擎还不能自动生成准确的文献综述。它们的输出结果更像是"一个本科生熬夜整理出的几篇论文的要点"。研究人员最好将这些工具用于优化综述流程的某些部分。"引导"公司的工程主管詹姆斯·布雷迪(James Brady)表示,该公司的用户用该产品扩充综述的各步骤,"效果很好"。
包括"引导"在内的数款工具的另一个局限是,它们只能搜索开放获取的论文和摘要,而非文章的全文。比拉尔指出,很多研究文献都是付费的,而且搜索全文需要耗费大量的计算资源。"让AI应用程序搜索数百万篇文章的全文会耗费大量时间,成本也会高到无法承受。"他说。
全文搜索
资金不是问题对于罗德里克斯来说。他所在的加州旧金山非营利公司"未来之家"得到了谷歌前首席执行官埃里克·施密特(Eric Schmidt)和其他投资者的支持。"未来之家"成立于2023年,旨在利用AI实现研究任务的自动化。
2024年9月,罗德里克斯和他的团队发布了未来之家的开源AI原型系统"论文问答2"(PaperQA2)。每当"论文问答2"收到一次查询,就会在多个学术数据库中搜索相关论文,并尝试访问开放存取和付费内容的全文。随后,系统会识别和总结相关度最高的要素。他提到,"论文问答2"的运行成本较高,部分原因在于它处理的是论文全文。
在测试该系统时,未来之家团队用它生成了关于多种单个人类基因的维基百科式文章。随后,他们将这些文章中的几百条由AI撰写的陈述语句,以及维基百科上针对同一主题的(人类撰写的)真实文章中的陈述语句,交给一个由博士和博士后生物学家组成的盲评小组。该小组发现,与AI工具生成的内容相比,真人撰写的文章中包含的"推理错误"——引用内容未能充分支持论点的情况——是前者的两倍。由于该工具在这方面的表现优于人类,研究小组将其论文命名为"语言智能体实现了科学知识的超人综合"。
亚伦·郑表示,与传统搜索引擎相比,"论文问答2"和另一款名为"潜思"(Undermind)的工具需要更长的时间(几分钟而不是几秒钟)才能返回结果,因为它们进行的是更复杂的搜索,例如利用初始搜索的结果来追踪其他引文和关键短语。他表示:"这一切意味着计算成本非常高,速度也非常慢,但搜索质量却大大提高了。"
美国初创公司未来之家团队推出了用于总结科学文献的人工智能系统。该公司的董事兼联合创始人萨姆·罗德里克斯坐在沙发右数第三位
系统综述的挑战
文献的叙述性综述已经够难写了,但系统综述更难写,后者可能需要花费数月甚至数年的时间才能完成。
根据保罗·格拉西乌(Paul Glasziou)团队的分析,完成一份系统综述至少涉及25个细致的步骤。在对文献进行梳理之后,研究人员必须对长名单进行筛选,找出相关性最高的论文,然后提取数据,筛查研究中可能存在的偏差,并对结果进行综合。(其中许多步骤还要由另一名研究人员重复执行,以检查是否存在不一致之处。)这种方法费力且耗时,但因其严格、透明和可重复性,在医学等领域被认为是值得一做的,因为临床医生会依据其结果来指导治疗病人的重要决策。
2019年,在ChatGPT问世之前,格拉西乌和他的同事们就已尝试创造一项科学领域的世界纪录:在两周内完成一份系统综述。当时,他和马歇尔、托马斯等人已经开发出了一些计算机工具,以减少所需要的时间。当时可用的软件包括"机器人搜索"(RobotSearch),这是一种经过训练的机器学习模型,可以从一系列研究中快速识别随机试验。另一款AI系统"机器评议员"(RobotReviewer)则可以帮助评估某项研究是否因未做充分盲法试验等因素而存在偏倚风险。"所有的这些都是减少系统综述写作时间的重要小工具。"格拉西乌表示。
这一挑战于2019年1月21日周一上午9:30开始计时,在总计9个工作日后,团队在2月1日周五的午餐时间完成了任务。"我可激动了。"当时在邦德大学主持这项研究、现任职于英国牛津大学的流行病学家安娜·梅·斯科特(Anna Mae Scott)说。众人用蛋糕庆祝了这项成就。此后,团队将这一纪录缩短到了5天。
这个过程是否还能更快?其他研究人员也一直在努力实现系统综述各个环节的自动化。2015年,格拉西乌成立了"系统综述自动化国际协作组织",这个小众团体也很符合自身定位,产出了若干篇关于系统综述自动化工具的系统综述。但马歇尔表示,即便如此,"仍然没有多少(工具)被广泛接受。这取决于技术的成熟度。"
"引导"是声称其工具可帮助完成系统综述,而非仅仅是叙述性综述的公司之一。布雷迪表示,该公司的系统并不能一键生成系统综述,但确实实现了一些步骤的自动化,包括筛选论文以及提取数据和见解。布雷迪指出,大多数使用"引导"撰写系统综述的研究者都上传了他们使用其他搜索技术找到的相关论文。
系统综述爱好者担心AI工具可能无法满足研究的两个基本标准:透明性和可重复性。"如果我看不到它所使用的方法,那么它就不是一篇系统综述,只是一篇普通的综述文章。"贾斯汀·克拉克(Justin Clark)表示。他是格拉西乌团队的一员,负责开发综述自动化工具。布雷迪说,研究者上传到"引导"网站上的论文就是"出色、透明的"初始文献记录。"至于可重复性,我们不能保证在重复相同步骤时,结果始终完全一致,但我们致力于在合理的范围内实现这一点。"他补充说,透明性和可重复性会是公司改进系统时的关注重点。
综述领域的专家表示,希望看到更多关于AI文献综述辅助工具系统的准确性和可重复性的公开评估研究。"开发好用的工具和尝试新事物真的很有趣,"克拉克说,"但进行一项严谨的评估研究却是相当艰巨的任务。"
2024年早些时候,克拉克牵头,对使用生成式AI工具辅助做系统综述的研究做了一次系统综述。他和他的团队发现,只有15项已发表的研究对AI的表现与人类的表现做了充分的比较。那些尚未发表或尚未经过同行评审的结果表明,这些AI系统可以从上传的研究中提取部分数据,并评估临床试验的偏倚风险。"在阅读和评估论文方面,AI系统似乎没什么问题,"克拉克表示,"但在其他任务上都表现得非常糟糕,包括设计和执行全面的文献检索。"(现有的计算机软件已经可以通过荟萃分析完成数据综合的最后一步。)
格拉西乌和他的团队仍在努力通过改进工具来缩短综述产出所需的时间,这些工具可以在他们命名为"证据综述加速器"的网站上找到。"这不会成为一件前无古人后无来者的大事,而是每年都会让综述产出变得越来越快。"格拉西乌预测道。例如,在2022年,该团队发布了一款名为"方法向导"(Methods Wizard)的计算机化工具,该工具会向用户询问一系列有关其研究方法的问题,然后在不使用AI的情况下为他们编写一份研究方案。
匆忙赶制的综述?
信息综合的自动化也伴随着风险。多年来,研究人员一直清楚,许多系统综述存在冗余或质量差的问题,而AI可能会加剧这些问题。部分作者可能在有意或无意中使用AI工具快速完成一篇并未遵循严格程序或是包含低质量研究的综述,从而得出误导性的结果。
格拉西乌说,与此形成对比的是,AI也可以鼓励研究人员对以前发表的文献进行快速检查,而原本他们是不会有闲心这么做的。"AI可能会提高他们的研究水平。"他说。布雷迪则表示,在未来,AI工具可以通过识别诸如P值操纵(一种数据操纵形式)等蛛丝马迹,帮助标记和过滤掉低质量的论文。
格拉西乌认为这种情况是两种力量的平衡:AI工具可以帮助科学家产出高质量的综述,但也可能会助长劣质综述的产生。"我不知道这对已发表文献的总体影响会是如何。"
有些人认为,综合和理解全球知识的能力不应该完全掌握在不透明、以盈利为目的的公司手中。克拉克希望看到非营利组织开发并仔细测试AI工具。近期,英国的两家资助机构宣布将向证据综合系统投资7000多万美元,他和其他研究人员对此表示欢迎。"我们只是希望保持谨慎和小心,"克拉克说,"我们想要确保(技术)辅助提供给我们的答案是正确的。"
本文原文来自Nature