问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI模型评估:最新统计学方法详解

创作时间:
作者:
@小白创作中心

AI模型评估:最新统计学方法详解

引用
CSDN
20
来源
1.
https://blog.csdn.net/www_tlj/article/details/136857842
2.
https://cloud.baidu.com/article/3180236
3.
https://m.huxiu.com/article/3704191.html
4.
https://www.woshipm.com/share/6121648.html
5.
https://www.thepaper.cn/newsDetail_forward_29401006
6.
https://blog.csdn.net/cc1609130201/article/details/139017763
7.
https://cloud.baidu.com/article/3323346
8.
http://finance.sina.com.cn/jjxw/2025-01-23/doc-inefxxuv6619082.shtml
9.
https://blog.csdn.net/fyf2007/article/details/142805139
10.
https://www.sohu.com/a/834554506_130887
11.
https://wenku.csdn.net/answer/d0f87484d68942c585f803a5a85f2929
12.
https://blog.csdn.net/weixin_43156294/article/details/139236445
13.
https://blog.csdn.net/qq_53795212/article/details/140122962
14.
https://www.shlab.org.cn/news/5444030
15.
https://www.ai-indeed.com/encyclopedia/10406.html
16.
https://www.wenxuecity.com/news/2024/09/12/125773173.html
17.
https://www.xuexiaigc.com/aigcnews/Anthropic%E6%96%B0%E7%A0%94%E7%A9%B6%EF%BC%9A%E7%94%A8%E7%BB%9F%E8%AE%A1%E6%80%9D%E7%BB%B4%E8%AF%84%E4%BC%B0%E5%A4%A7%E6%A8%A1%E5%9E%8B/
18.
https://www.explinks.com/wiki/what-is-model-evaluation/
19.
https://www.53ai.com/news/LargeLanguageModel/2024072916324.html
20.
https://www.cnblogs.com/MingsonZheng/p/18693290

随着人工智能技术的快速发展,如何准确评估AI模型的性能和可靠性成为业界关注的焦点。近日,知名大模型初创公司Anthropic在其最新研究论文中提出了一套基于统计学的AI模型评估方法,为解决这一问题提供了新的思路和工具。本文将详细介绍这些方法的原理和应用,帮助读者更好地理解和评估AI模型的性能。

01

为什么需要统计学方法?

在AI模型评估中,一个核心问题是:当一个模型在某个基准测试上表现优于另一个模型时,这种差异是反映了模型间的真实能力差异,还是仅仅因为选择了特定的问题而“运气好”?为了解决这个问题,Anthropic的研究团队借鉴了统计理论和其他科学中实验分析和规划的研究,提出了五项具体的评估建议。

02

建议1:使用中心极限定理

中心极限定理是统计学中的一个基本定理,它指出:在独立同分布的情况下,无论各个随机变量的分布如何,它们的和的分布近似于正态分布。这个定理在AI模型评估中具有重要应用。

例如,MMLU(测量大规模多任务语言理解能力)评测包含各种各样的问题,如:

  • 谁发现了第一个病毒?
  • (f(x)=4-5x) 的逆函数是什么?
  • “法学是法律的眼睛”是谁说的?

要计算总体评测分数,需要对每个问题单独评分,然后计算这些问题分数的简单平均值。通常,研究人员关注的是这个观察到的平均值。但Anthropic的研究团队认为,真正感兴趣的对象不应该是“观察到”的平均值,而是所有可能问题的“理论”平均值。

因此,如果将评测问题想象成是从一个看不见的“问题世界”中抽取的,那么就可以使用统计理论来衡量潜在的“技能”,而不受“全凭运气”的影响。在技术术语中,这涉及到计算平均值的标准误差(SEM),并使用它来量化两个模型之间理论平均值的差异。通过在平均分数上加减 (1.96 \times SEM),可以从SEM计算出95%的置信区间。

03

建议2:聚类标准误差

许多评测违反了独立选择问题的假设,而是由一组密切相关的问题组成。例如,阅读理解评测中的几个问题可能会询问同一段文字。遵循这种模式的主流评测包括DROP、QuAC、RACE和SQuAD。

对于这些评测,每个问题从“问题范围”中选择的内容不再是独立的。因为包含关于同一段文本的几个问题所产生的信息量要比选择相同数量关于不同段落文本的问题所产生的信息量少,所以将中心极限定理简单应用于非独立问题的情况会导致低估标准误差,并可能误导分析师从数据中得出错误的结论。

幸运的是,聚类标准误差问题在社会科学中得到了广泛的研究。当问题的纳入不独立时,研究建议以随机化单位(例如,文本段落)对标准误差进行聚类,并在论文中提供了适用的公式。

04

建议3:减少问题内的方差

方差是衡量随机变量分散程度的指标。评估分数的方差是上述平均值的标准误差的平方;这个量取决于每个单独评估问题的分数的方差。

本文的一个关键见解是将模型在特定问题上的分数分解为两个相加的项:

  • 平均分数(如果模型被无限次问到同一个问题,它将取得的平均分数——即使模型每次可能产生不同的答案);
  • 随机成分(实现的问题分数与该问题的平均分数之间的差异)。

由于总方差定律,减少随机成分的方差直接导致总体平均值的标准误差变小,从而提高统计精度。我们的论文根据模型是否被要求在回答前逐步思考(一种称为CoT或链式思维推理的提示技巧)提出了两种减少随机成分方差的策略。

如果评估使用链式思维推理,我们建议从同一模型中多次重新采样答案,并使用问题级别的平均值作为输入中心极限定理的问题分数。我们注意到Inspect框架通过其epochs参数正确计算了标准误差。

如果模型非确定性地产生答案,那么为每个问题生成(并评分)多个答案将导致评估分数的分散程度降低。

如果评估不使用链式思维推理(即其答案不是“路径依赖”的),我们注意到可以通过语言模型的下一个标记概率来消除随机成分中的方差。例如,如果多项选择题的正确答案是“B”,我们只需使用模型产生标记“B”的概率作为问题分数。我们不知道任何开源评估框架实现了这种技术。

05

建议4:分析配对差异

评估分数本身没有任何意义;它们只有在相互关系中才有意义(一个模型优于另一个模型,或与另一个模型持平,或优于一个人)。但是,两个模型之间的测量差异是否是由于评估中问题的具体选择和模型答案的随机性造成的?我们可以通过使用来自两个评估分数的平均值的标准误差的双样本t检验来找出答案。

然而,双样本检验忽略了评估数据中的隐藏结构。由于问题列表在模型之间共享,进行配对差异检验可以让我们消除问题难度的方差,专注于响应的方差。在我们的论文中,我们展示了配对差异检验的结果将如何与两个模型的问题分数之间的皮尔逊相关系数相关。当相关系数较高时,平均差异的标准误差将较小。

在实践中,我们发现前沿模型在流行评估中的问题分数的相关性相当大——在−1到+1的范围内为0.3到0.7。换句话说,前沿模型总体上倾向于正确回答相同的问题和错误回答相同的问题。因此,配对差异分析代表了一种“免费”的方差减少技术,非常适合AI模型评估。因此,为了从数据中提取最清晰的信号,我们的论文建议在比较两个或多个模型时报告成对信息——平均差异、标准误差、置信区间和相关系数。

06

建议5:使用功效分析

统计显著性的另一面是统计功效,即统计检验在假设存在差异的情况下检测两个模型之间差异的能力。如果评估的问题不多,与任何统计检验相关的置信区间往往会很宽。这意味着模型需要在能力上有很大的潜在差异才能产生统计显著的结果——而小的差异很可能被忽略。功效分析指的是观察次数、统计功效、假阳性率和感兴趣的效应大小之间的数学关系。

在我们的论文中,我们展示了如何将功效分析的概念应用于评估。具体来说,我们展示了研究人员如何制定假设(例如,模型A比模型B高出3个百分点)并计算评估应该包含多少问题以测试这个假设与零假设(例如,模型A和模型B持平)。

我们相信功效分析将对研究人员在多种情况下有所帮助。我们的功效公式将告知模型评估者从问题中重新采样答案的次数(参见上述建议3),以及在保留所需功效属性的同时,随机子样本中可能包含的问题数量。研究人员可以使用功效公式得出结论,即具有有限问题数量的评估对于特定模型对来说不值得运行。新评估的开发者可能希望使用该公式来帮助决定包含多少问题。

07

结论

统计学是在噪声存在的情况下进行测量的科学。评估提出了许多实际挑战,真正的评估科学仍然不够发达。统计学只能构成评估科学的一个方面——但这是一个关键的方面,因为一门经验科学只与其测量工具一样好。我们希望论文中的建议为评估添加误差条:一种统计方法来评估语言模型能够帮助AI研究人员以比以前更高的精度和清晰度计算、解释和传达评估数字——并鼓励AI研究界的人员探索实验设计中的其他技术,以便更准确地了解他们想要测量的所有事物。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号