谷歌AI芯片设计论文遭质疑:研究方法存缺陷,可信度受质疑
谷歌AI芯片设计论文遭质疑:研究方法存缺陷,可信度受质疑
2021年,谷歌在Nature发表了一篇关于AI芯片设计的论文,声称使用强化学习可以在不到六小时的时间内自动生成芯片布局,并且在所有关键指标上都优于人类工程师。然而,这篇论文自发表以来一直饱受争议,多位专家对其研究方法和结果提出质疑。近日,Synopsys杰出架构师Igor Markov在最新一期的CACM上发表文章,详细分析了这篇论文的各种问题,并指出其可信度已经受到严重损害。
谷歌Nature论文引发争议
谷歌在2021年发表的这篇论文《A graph placement methodology for fast chip design》(快速芯片设计的图放置方法)引起了广泛关注。论文描述了一种基于强化学习的芯片设计方法,声称可以在不到六小时的时间内自动生成芯片布局,并且在功耗、性能和芯片面积等所有关键指标上都优于或媲美人类工程师。谷歌表示,这项技术对于资金紧张的初创企业特别有帮助,可以帮助他们开发自己的AI和专用芯片。
然而,这篇论文自发表以来就一直饱受争议。多位领域专家对其研究方法和结果提出质疑,认为论文存在诸多缺陷,包括缺乏可复现性、关键方法步骤的隐瞒、以及与现有技术的不公平比较等。
独立评估揭示真相
最近,Synopsys杰出架构师Igor Markov在最新一期的CACM上发表文章,对这篇论文进行了详细的元分析。Markov指出,有两项独立评估填补了这一空白,结果显示谷歌的强化学习方法不仅赶不上人类工程师,也赶不上一种已知的算法(模拟退火)和普遍可用的商业软件,同时速度也更慢。
通过对数据进行交叉检验后,Igor Markov表示,由于行为、分析和报告中的错误,Nature的这篇论文的可信度受到了严重损害。在本文发表之前,谷歌反驳了其内部仍然存在的欺诈指控。
研究方法存在诸多缺陷
隐藏关键方法步骤
谷歌的论文隐瞒了关键的方法步骤和重现其结果所需的大部分输入。例如,论文中没有提供每个设计的具体时间,也没有将设计过程细分为不同阶段。此外,论文只给出了五个TPU块的结果,其统计明显不足,而且高方差指标会产生噪声结果。
基准测试存在缺陷
Nature杂志使用了多个基准来宣称所提技术的优越性。然而,人类基准没有记录,并且不可复现。例如,Mirhoseini et al. 和表1中的关键结果给出了五个TPU设计模块的芯片指标。但与SA的比较并没有报告这些芯片指标。
训练数据和测试数据之间存在数据泄漏
根据Mirhoseini et al.的说法,“当我们将策略网络暴露给更多种类的芯片设计时,它就不太容易过度拟合。”但谷歌Team 1后来在Yue et al.中表明,对“多样化TPU块”进行预训练并没有提高结果质量。对“以前的网表版本”进行预训练会稍微提高质量。对RL进行预训练并在类似设计上对其进行评估可能是Mirhoseini et al.方法论中的一个严重缺陷。由于谷歌没有发布专有的TPU设计或每个设计的统计数据,所以无法比较训练和测试数据。
独立复现结果令人震惊
来自加州大学圣地亚哥分校(UCSD)的研究人员于2022年秋季开发了一个独立复现实验。他们对谷歌开源代码中缺少的关键组件进行了逆向工程,并完全重新实现了代码中缺失的模拟退火(SA)基线。实验结果表明,SA和商业电子设计自动化(EDA)工具的表现均优于谷歌的强化学习代码。
吹哨人指控谷歌学术不端
2022年,谷歌解雇了内部吹哨人,并拒绝批准发表一篇批评Mirhoseini et al.研究的文章。这位吹哨人依据吹哨人保护法,对谷歌提起了错误解雇的诉讼:法庭文件详细列出了与Mirhoseini et al.研究相关的欺诈和科学不端行为的指控。
Nature杂志的处理
Nature杂志在执行自己的政策方面进展缓慢。推迟撤回有问题的出版物正在扭曲科研过程。为了维护科学研究的诚实可信,必须迅速果断地采取行动。
政策影响
理论论证和实证证据表明,各个领域发表的大量论文无法复现,而且可能不正确。比如Nature杂志这篇论文就加剧了复现危机,破坏了人们对已发表研究的信任。Retraction Watch每年能追踪到5000起撤稿事件,包括突出的研究不端行为案例。其表示,“研究不端行为是一个严重的问题,而且(可能)越来越严重”,这使得我们更有必要将诚实的错误与故意夸大和不端行为区分开来。机构需要给出回应,包括在Nature撤稿通知中进行明确说明。
Nature的编辑政策应被广泛而严格地遵守。引自《Nature Portfolio》:“出版的固有原则是,其他人应该能够复现和借鉴作者发表的主张。在Nature Portfolio期刊上发表论文的条件是,作者必须及时向读者提供材料、数据、代码和相关协议,而无需要求资格……出版后,如果读者遇到作者拒绝遵守这些政策的情况,应联系期刊的主编。”
具体到Mirhoseini et al.这篇论文,杂志社论坚称“技术专长必须广泛分享”。但是,当稿件作者忽视公开基准测试的要求并阻碍复现时,他们的技术主张应该受到怀疑(尤其是如果他们后来不同意与他们的工作进行比较)。
根据同行评议文件,这篇论文的接收取决于代码和数据的发布,但在Mirhoseini et al.发表时或之后,这都没有发生。这些作者还对那篇Nature论文进行了修改,声称代码已经可用。但发布的代码中仍然存在严重遗漏。这尤其令人担忧,因为该论文省略了关键的比较和细节,并且负责评估该项目的谷歌吹哨人在加州法院宣誓指控存在欺诈行为。这使得复现变得更加关键。
对于已发表的科学主张,得出明确无误的结论符合每个人的利益。作者、Nature杂志的编辑和审稿人以及研究界都应承担责任。寻求真相是大家共同的义务。