问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

用统计学方法提升AI模型评估效率

创作时间:
作者:
@小白创作中心

用统计学方法提升AI模型评估效率

引用
CSDN
9
来源
1.
https://blog.csdn.net/l35633/article/details/145398181
2.
https://blog.csdn.net/fyf2007/article/details/142805139
3.
https://cloud.baidu.com/article/3153695
4.
https://blog.csdn.net/l35633/article/details/145404524
5.
http://finance.sina.com.cn/jjxw/2025-01-23/doc-inefxxuv6619082.shtml
6.
https://www.itacsoftware.com/cn/media/blog/ai-in-manufacturing
7.
https://uee.ai/443/ai%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E8%B5%8B%E8%83%BD%E5%88%B6%E9%80%A0%E4%B8%9A%E5%8D%87%E7%BA%A7/
8.
https://www.53ai.com/news/AIgongye/2024071663259.html
9.
https://www.shlab.org.cn/news/5444030

在人工智能领域,准确评估AI模型的性能至关重要。随着AI技术的快速发展,如何科学、客观地评价不同模型的能力成为研究者和工程师们关注的焦点。本文将介绍五种基于统计学的AI模型评估方法,这些方法能够帮助我们更准确地判断模型性能,避免因偶然因素导致的误判。

01

使用中心极限定理

评估通常由数百或数千个不相关的问题组成。例如,MMLU(Multitask Multi-lingual Language Understanding)基准测试包含各种各样的问题,如:

  • 谁发现了第一种病毒?
  • 函数𝑓(𝑥)=4−5𝑥 的逆是什么?
  • “法学是法律的眼睛”是谁说的?

为了计算总体评估分数,每个问题分别评分,然后总体分数通常是这些问题分数的简单平均值。通常,研究人员关注的是这个观察到的平均值。但在我们的论文中,我们认为真正的关注对象不应该是观察到的平均值,而是所有可能问题的理论平均值。因此,如果我们想象评估问题是从一个看不见的“问题宇宙”中抽取的,我们可以使用统计理论来了解该“问题宇宙”中的平均分数——也就是说,我们可以测量潜在技能,独立于“抽签运气”。

这种表述为我们带来了分析上的稳健性:如果创建了一个新评估,其问题难度分布与原始评估相同,我们通常应该期望我们的原始结论成立。

从技术上讲:在中心极限定理的相当温和的条件下,从同一潜在分布中抽取的多个随机样本的平均值将倾向于遵循正态分布。该正态分布的标准差(或宽度)通常被称为平均值的标准误差(SEM)。在我们的论文中,我们鼓励研究人员报告与中心极限定理导出的SEM,以及每个计算出的评估分数一起,并展示了研究人员如何使用SEM来量化两个模型之间理论平均值的差异。95%的置信区间可以通过从平均分数加减1.96 × SEM来计算。

02

聚类标准误差

许多评估违反了独立选择问题的假设,而是由一组密切相关的问题组成。例如,阅读理解评估中的几个问题可能询问同一段文本。流行的评估如DROP、QuAC、RACE和SQuAD都遵循这种模式。

对于这些评估,从“问题宇宙”中选择每个问题不再独立。因为包含关于同一段文本的几个问题将比选择关于不同文本的相同数量的问题提供更少的信息,因此将中心极限定理简单应用于非独立问题的情况将导致我们低估标准误差——并可能误导分析师从数据中得出错误的结论。

幸运的是,社会科学已经广泛研究了聚类标准误差的问题。当问题的包含是非独立的,我们建议将标准误差聚类在随机化单位上(例如,文本段落),并在论文中提供了适用的公式。

如果问题以相关集群的形式出现——这是阅读理解评估中的常见模式——评估分数将比非聚类情况更加分散。

在实践中,我们发现流行评估中的聚类标准误差可能比简单的标准误差大三倍以上。忽略问题聚类可能导致研究人员无意中检测到模型能力的差异,而实际上并不存在这种差异。

03

减少问题内的方差

方差是衡量随机变量分散程度的指标。评估分数的方差是上述平均值的标准误差的平方;这个量取决于每个单独评估问题的分数的方差。

本文的一个关键见解是将模型在特定问题上的分数分解为两个相加的项:

  • 平均分数(如果模型被无限次问到同一个问题,它将取得的平均分数——即使模型每次可能产生不同的答案);
  • 随机成分(实现的问题分数与该问题的平均分数之间的差异)。

由于总方差定律,减少随机成分的方差直接导致总体平均值的标准误差变小,从而提高统计精度。我们的论文根据模型是否被要求在回答前逐步思考(一种称为CoT或链式思维推理的提示技巧)提出了两种减少随机成分方差的策略。

如果评估使用链式思维推理,我们建议从同一模型中多次重新采样答案,并使用问题级别的平均值作为输入中心极限定理的问题分数。我们注意到Inspect框架通过其epochs参数正确计算了标准误差。

如果模型非确定性地产生答案,那么为每个问题生成(并评分)多个答案将导致评估分数的分散程度降低。

如果评估不使用链式思维推理(即其答案不是“路径依赖”的),我们注意到可以通过语言模型的下一个标记概率来消除随机成分中的方差。例如,如果多项选择题的正确答案是“B”,我们只需使用模型产生标记“B”的概率作为问题分数。我们不知道任何开源评估框架实现了这种技术。

04

分析配对差异

评估分数本身没有任何意义;它们只有在相互关系中才有意义(一个模型优于另一个模型,或与另一个模型持平,或优于一个人)。但是,两个模型之间的测量差异是否是由于评估中问题的具体选择和模型答案的随机性造成的?我们可以通过使用来自两个评估分数的平均值的标准误差的双样本t检验来找出答案。

然而,双样本检验忽略了评估数据中的隐藏结构。由于问题列表在模型之间共享,进行配对差异检验可以让我们消除问题难度的方差,专注于响应的方差。在我们的论文中,我们展示了配对差异检验的结果将如何与两个模型的问题分数之间的皮尔逊相关系数相关。当相关系数较高时,平均差异的标准误差将较小。

在实践中,我们发现前沿模型在流行评估中的问题分数的相关性相当大——在−1到+1的范围内为0.3到0.7。换句话说,前沿模型总体上倾向于正确回答相同的问题和错误回答相同的问题。因此,配对差异分析代表了一种“免费”的方差减少技术,非常适合AI模型评估。因此,为了从数据中提取最清晰的信号,我们的论文建议在比较两个或多个模型时报告成对信息——平均差异、标准误差、置信区间和相关系数。

05

使用功效分析

统计显著性的另一面是统计功效,即统计检验在假设存在差异的情况下检测两个模型之间差异的能力。如果评估的问题不多,与任何统计检验相关的置信区间往往会很宽。这意味着模型需要在能力上有很大的潜在差异才能产生统计显著的结果——而小的差异很可能被忽略。功效分析指的是观察次数、统计功效、假阳性率和感兴趣的效应大小之间的数学关系。

在我们的论文中,我们展示了如何将功效分析的概念应用于评估。具体来说,我们展示了研究人员如何制定假设(例如,模型A比模型B高出3个百分点)并计算评估应该包含多少问题以测试这个假设与零假设(例如,模型A和模型B持平)。

我们相信功效分析将对研究人员在多种情况下有所帮助。我们的功效公式将告知模型评估者从问题中重新采样答案的次数(参见上述建议3),以及在保留所需功效属性的同时,随机子样本中可能包含的问题数量。研究人员可以使用功效公式得出结论,即具有有限问题数量的评估对于特定模型对来说不值得运行。新评估的开发者可能希望使用该公式来帮助决定包含多少问题。

06

结论

统计学是在噪声存在的情况下进行测量的科学。评估提出了许多实际挑战,真正的评估科学仍然不够发达。统计学只能构成评估科学的一个方面——但这是一个关键的方面,因为一门经验科学只与其测量工具一样好。我们希望论文中的建议为评估添加误差条:一种统计方法来评估语言模型能够帮助AI研究人员以比以前更高的精度和清晰度计算、解释和传达评估数字——并鼓励AI研究界的人员探索实验设计中的其他技术,以便更准确地了解他们想要测量的所有事物。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号