数以千计的隐形引文潜入论文,被引指数真的还真实吗?
数以千计的隐形引文潜入论文,被引指数真的还真实吗?
学术界一直将引用次数作为衡量研究影响力的重要指标,然而,法国图卢兹大学的计算机科学家Guillaume Cabanac发现了一种令人担忧的现象:一些论文通过操纵元数据文件中的引用数量来虚增引用次数,这种"隐形引用"行为对学术评价体系构成了严重威胁。
2022年,Cabanac在PubPeer上发现了一篇异常论文:该论文在发表不到两个月内就获得了100多次引用。更令人惊讶的是,根据"Altmetrics donut"统计,该研究已被引用107次,但其下载次数却仅为62次。而Google Scholar的统计显示,这篇论文仅被引用了一次。
经过深入调查,Cabanac和其团队在提交给Crossref的元数据文件中找到了额外引文的来源。他们将这一发现发表在arXiv预印本服务器上。Cabanac解释道,Google Scholar的引用统计基于研究论文PDF版本的文本挖掘,而不是Crossref的元数据文件。"我们相信,这是一种此前未被记录的引用计数操纵方式,"他在接受《Retraction Watch》采访时表示。
研究发现,有问题的论文的元数据文件包含的参考文献数量明显多于HTML或PDF版本。这些额外的引用被悄悄添加至元数据文件中,并提交给Crossref并被自动提取。由于元数据文件随时重新提交,因此更新后的文件可在文章发表后任意时间加入更多引用。这些多余的引用最终会显著提高Altmetrics分数(该分数描述了文章在社交媒体平台上的传播及提及频率)。这种人为夸大的分数进一步影响了Dimensions等书目平台的引用统计。
根据Cabanac的研究,新增的引用大多来自Technoscience Academy出版的期刊。Technoscience Academy是一家总部位于印度古吉拉特邦的开放获取出版商,同时也是Crossref的成员。该出版商未对媒体的置评请求做出回应。目前尚不清楚谁在操纵元数据文件,抑或该问题是否因技术故障所致。
Cabanac认为,这种现象反映了监督缺失的问题。他建议,建立定期比对PDF、HTML和元数据文件中参考文献的工具与系统,将是解决这一问题的关键。"如果某出版商的输出明显包含异常引用,其Crossref成员资格应受到严格审查。作为Crossref协议的签署方,'出版商应对其行为负责。'"
Crossref会员与社区拓展总监Ginny Hendricks也对此发表了评论,她指出这是他们首次听说这种"隐形引用"的问题。"这绝对是学界执着于将引用作为衡量影响或重要性的指标的副作用,令人遗憾。"她补充道,Crossref将启动调查,并指出Crossref通常不会撤销会员资格,过去仅因Omics International对科学界造成严重影响而被撤销会员资格。Hendricks表示,Crossref到目前为止还没有考虑引入广泛的审查,但她鼓励第三方使用Crossref的开放数据来开发系统从而做到这一点。"科学合法性不是由我们来决定。"
在对Technoscience Academy出版的三本期刊分析后,Cabanac的团队发现,这些期刊通过Crossref生成了超过1,000个DOI(数字对象标识符)。研究显示,三本期刊发表论文的元数据中约9%的引用(即65,836篇参考文献中的5,978篇)仅使两名研究人员受益。其中一位是印度维沙卡帕特南Vignan信息技术研究所的J. Nageswara Rao,他从3,103次额外引用中获益;另一位是印度甘地讷格尔LDRP技术与研究所的Bhavesh Kataria,他从1,564次额外引用中获益。
此外,三本期刊自身也从这些"隐形引用"中获利。例如,International Journal of Scientific Research in Science, Engineering and Technology的引用次数增加了826次,International Journal of Advanced Science and Technology和Turkish Journal of Physiotherapy and Rehabilitation分别增加了537次和428次引用。
在出版商进行调查后,Hindawi撤回了这篇文章。调查显示,该论文存在以下一项或多项系统性操纵发布过程迹象的证据:
(1) 范围差异
(2) 报告的研究描述存在差异
(3) 数据的可用性与所描述的研究之间的差异
(4) 引用不当
(5) 文章中包含的不连贯、无意义和/或不相关的内容
(6) 同行评议过程被操纵
除"隐形引用"之外,Cabanac的研究还揭示了"丢失引用"的现象,即论文HTML/PDF中存在的部分引用并未出现在Crossref的元数据文件中。"Crossref元数据(例如Dimensions)用户可能忽略这些引用,因为这些不在他们的数据库中,或者因为他们未能正确地对元数据中提供的引用文本进行文本挖掘,"Cabanac补充道。研究表明,HTML版本中高达56%的引用(即36,939篇参考文献中的65,836篇)未包含在Crossref元数据文件中。