AI如何改变预测科学?统计学家Emmanuel Candès的深度解读
AI如何改变预测科学?统计学家Emmanuel Candès的深度解读
Emmanuel Candès
近年来,大语言模型(LLM)等黑箱系统在预测领域取得了大量成功,这表明有时即使完全不知道某事物的工作原理,也可以做出成功的预测。日前,Quanta Magazine 发布了法国统计学家 Emmanuel Candès 接受“The Joy of Why”栏目主持人 Steve Strogatz 的专访播客。
在访谈中,Candès 深入探讨了数据科学和机器学习在应对复杂预测挑战中的作用,特别关注了高风险场景下人工智能(AI)模型的准确性和可靠性。他剖析了当前预测建模技术的局限性,倡导一种能够量化人工智能预测不确定性的重新校准方法,尤其是在这些系统作为黑箱操作时。
什么是黑箱?
在访谈中,Candès 解释了“黑箱”这个概念。他说,机器学习算法将过去收集的数据作为输入。然后给定一组特征,尝试对未知标签进行预测。因此,预测建模与统计学领域本身一样古老。从 Francis Galton、Karl Pearson 和 Ronald Fisher 开始,统计学家们就一直非常注重从数据中进行预测。但他们使用的是相对简单的模型——可以用数学方法分析的模型,也就是我们在大学教授的模型,你有时可以为这些模型提供可靠的推论。
但现在我们已经超越了这些简单的回归。我们正在使用深度学习、梯度提升、随机预测——很多技术已经变得非常流行,有时还会结合使用。而现在,这变得非常复杂,以至于非常困难。我们用黑箱来指代那些复杂到无法分析的算法。当然,也有很多理论家试图了解黑箱里发生了什么。
如何量化不确定性?
Candès 提出了一种新的方法来量化不确定性。他说,他的研究小组一直在做的事情,以及目前全球许多研究小组正在做的事情,就是尝试获取这些黑箱的输出并将其视为统计对象。因此,我们看到统计学的一个分支学科,就是在不做任何建模假设的情况下,对这些黑箱的输出进行推理。这样分析的结果才值得信赖,我们才能量化不确定性,从而做出可靠的决策。因此,所有诸如 p 值和置信区间之类的东西,都以这样或那样的方式存在。
P 值的概念,本质上是一个量化的指标,用来衡量你对某个实验结果的惊讶程度。在黑箱的背景下,如果黑箱做出了预测,我仍然可以问我应该对这个预测感到多么惊讶。因此,我需要对意外因素进行量化。因此,我希望能够将预测结果转化为你所说的 P 值,这样我就可以实际校准从黑箱中得出的结果。
应用场景
Candès 举了一个例子,假设一个不远的未来世界,在这个世界里,人们会向大学提出申请,比如说,由于大学收到的申请太多,我们将至少把部分决定过程外包给一个黑箱。假设现在有学生申请康奈尔大学,也就是你的母校,而你决定用黑箱来预测他们在康奈尔大学的表现,对吧?那么问题来了,这些预测有多精确?
但你可以做的是,你可以说:“好吧,我已经训练了我的模型,现在我已经预留了一组学生,我知道他们的结果,而且我可以实际看到黑箱是如何预测这些结果的。现在,我可以试着了解,对于什么样的学生误差大?什么样的学生误差小?我从这个黑箱中得到了什么样的准确度?
现在,当你使用黑箱筛选一些候选人时,你可以从中进行校准。因为你已经观察到了黑箱预测与测试集之间的不匹配,这样你就能稍微了解黑箱的准确性,以及你实际上能得出什么结论。因此,通过观察黑箱对一组学生的预测结果(你已经得到了这些学生的预测结果和标签),你实际上并不能对这些学生的表现做出一个点预测,但你可以得到一个预测区间,这个区间有可能在规定的时间内包含真实的成绩。
医学应用
在医学领域,Candès 讨论了预测模型的应用。他说,统计学一直是一门实证科学,它试图让周围的世界变得有意义。因此,现在我们正在处理诸如 Gen AI 之类的极其复杂的机器学习算法。
所以,为了了解药物,我们从体内开始:比如,我们只是给人注射一些东西。然后,我们在体外进行研究。现在我们正转向计算机模拟,正如你所指出的那样,对吧?也就是说,现在我们想使用算法来预测药物的作用。
假设你是一家大型制药公司,拥有一个庞大的化合物库。可能有 4 亿、5 亿种。你想知道这些化合物中哪些能真正与目标结合,那你该怎么办?那么,你该怎么做呢?
嗯,你应该逐一研究你的化合物,并试验它们是否会与你的目标结合。但你可以想象,这需要大量的时间和金钱。因此,现在人们开始使用机器学习来猜测是否会结合。在过去几年里,我们看到了 AlphaFold 这样的东西。例如,我们看到了很多试图通过氨基酸序列来预测化合物形状的模型。
现在,这并不能取代物理实验,但机器学习在这种情况下所做的,是优先选择你应该首先尝试的化合物。我们在这一领域所做的事情之一就是说:“好吧,我们要训练一些非常奇特的模型——它们真的是黑箱。我的意思是,它们非常复杂,我不知道它们到底有什么用,但它们会产生亲和力分数,即化合物对目标疾病的亲和力。” 我说:“我能相信这个吗?”
于是,在没有任何统计模型的情况下,仅仅通过观察算法在没有经过训练的分子上的预测结果,我们就能够选择[一个]数据自适应阈值,如果你愿意的话,这个阈值表示,如果你选择所有这些预测亲和力高于这个阈值的分子,你就能保证我给你的东西中有 80% 是你真正感兴趣的。
在下游,你会在一些真实的东西上做一些真正的实验。但在这里,非常令人兴奋的是,人工智能可以真正加快确定应转给实验室的药物的优先级。
压缩传感
Candès 还讨论了压缩传感及其在医学成像、核磁共振成像等领域的应用。他说,压缩传感理论认为,如果我们测量了很多东西,但只有少数几个东西是重要的,如果我们使用了压缩传感理论提出的那种正确算法,那么我们就应该能够建立一个非常准确的预测模型。
比如,我们会明白,很多变量都与预测结果无关,它会迅速将注意力集中在对结果有影响的变量上,然后建立一个良好的预测模型。
可重复性危机
Candès 还讨论了可重复性危机。他说,这场危机发生在这个时候并非巧合,因为我给你一个数据集,你就相信它是黄金。你会去尝试一个模型,它不成功,你就会去尝试别的。因此,你要对参数进行微调,对很多东西进行微调,直到有什么东西“咔嚓”一声,这并没有什么不妥。
但我认为,作为一名统计学家,我们需要做的是——我们有很多人都在研究这样的问题——如何才能在选择模型、参数的自由度上建立保障,从而在一天结束的时候,你所声称的发现有机会被独立的实验所重现?
统计界正在开发很多方法,这样当你认为你有所发现时,你就真的有所发现了。因此,这对该领域来说是一个非常激动人心的时刻,现在开发的方法不是真正量化预测中的不确定性,而是以这种方式进行实际校准。然后,当你报告研究结果时,我们会确保你所报告的大部分内容都是正确的。
教育问题
Candès 还讨论了教育问题。他说,他认为他在低级统计教学中看到的是对公式的依赖——我应该在什么时候应用哪个公式?他认为这毫无帮助。
学生时代,我学习的当然是数学推理,这很重要。在高中和大学期间,我又学习了物理推理。这与数学推理截然不同,而且非常强大。但在斯坦福大学读研究生时,我了解到一种叫做归纳推理的新方法,它与前两种方法都不一样。我认为,我们需要在早期阶段做好这方面的教学工作。
什么是归纳推理?就是通过特定的观察进行归纳的能力。我们该如何做到这一点呢?好的,所以我会提倡一种不太数学化的方法,即试图让孩子们理解如何从样本到群体再到我们还未见过的个体进行归纳,以及是什么让这成为可能。
各个领域之间有点紧张。我们是应该更倾向于数学,还是应该更倾向于计算机科学?我认为,如果我们过于偏重数学或过于偏重计算机科学,就有可能失去统计推理的能力。这可能有点抽象,但我觉得统计推理极其强大,极其美妙。
数据科学 vs 统计学
Candès 还讨论了数据科学和统计学的关系。他说,数据科学比传统的统计学领域要大得多,但统计学是其知识支柱之一。
他在斯坦福大学的工作很特别,因为他接触到的学生都很优秀。他认为这让他保持年轻。它让他保持警觉。他不会睡着,因为他必须一直追赶他们。
他认为在电视上说这些话有点奇怪,但他会因此而变得更健康,因为无论是在精神上还是身体上,它们都让他保持健康。看到他们成长,成为伟大的科学家,他感到很高兴。去年,他的两位前学生在同一年获得了麦克阿瑟奖。所以,他所合作的学生都非常有成就,所以这是一种荣幸。能够感受到如此多的活力,对这个主题如此热情,这是一种荣幸,自私地说,这对他的健康有好处。
本文原文来自Quanta Magazine