最新AI模型评估方法大揭秘!
最新AI模型评估方法大揭秘!
随着人工智能技术的飞速发展,如何准确、客观地评估AI模型的性能成为研究者们关注的重点。传统的评估方法往往难以应对大型语言模型的复杂性和多样性,而统计学方法为解决这一难题提供了新的思路。本文将深入探讨统计学方法在AI模型评估中的应用,以及最新的研究进展。
统计学方法在模型评估中的应用
Anthropic的研究团队提出了一种创新方法,通过引入严谨的统计思维,显著提高了大模型评估的准确性和可靠性。这种方法不仅为评估过程提供了科学依据,还为未来的人工智能发展奠定了坚实基础。研究强调,在处理复杂数据时,统计方法能够有效减少误差,确保评估结果的真实性和稳定性。
中心极限定理
评估通常由数百或数千个不相关的问题组成。例如,MMLU包含各种各样的问题,如:
- 谁发现了第一种病毒?
- 𝑓(𝑥)=4−5𝑥 的逆是什么?
- “法学是法律的眼睛”是谁说的?
为了计算总体评估分数,每个问题分别评分,然后总体分数通常是这些问题分数的简单平均值。通常,研究人员关注的是这个观察到的平均值。但在我们的论文中,我们认为真正的关注对象不应该是观察到的平均值,而是所有可能问题的理论平均值。因此,如果我们想象评估问题是从一个看不见的“问题宇宙”中抽取的,我们可以使用统计理论来了解该“问题宇宙”中的平均分数——也就是说,我们可以测量潜在技能,独立于“抽签运气”。
如果我们想象评估问题是从一个“问题宇宙”中抽取的,那么评估分数将倾向于围绕所有可能问题的平均分数形成正态分布。这种表述为我们带来了分析上的稳健性:如果创建了一个新评估,其问题难度分布与原始评估相同,我们通常应该期望我们的原始结论成立。
从技术上讲:在中心极限定理的相当温和的条件下,从同一潜在分布中抽取的多个随机样本的平均值将倾向于遵循正态分布。该正态分布的标准差(或宽度)通常被称为平均值的标准误差(SEM)。在我们的论文中,我们鼓励研究人员报告与中心极限定理导出的SEM,以及每个计算出的评估分数一起,并展示了研究人员如何使用SEM来量化两个模型之间理论平均值的差异。95%的置信区间可以通过从平均分数加减1.96 × SEM来计算。
聚类标准误差
许多评估违反了独立选择问题的假设,而是由一组密切相关的问题组成。例如,阅读理解评估中的几个问题可能询问同一段文本。流行的评估如DROP、QuAC、RACE和SQuAD都遵循这种模式。
对于这些评估,从“问题宇宙”中选择每个问题不再独立。因为包含关于同一段文本的几个问题将比选择关于不同文本的相同数量的问题提供更少的信息,因此将中心极限定理简单应用于非独立问题的情况将导致我们低估标准误差——并可能误导分析师从数据中得出错误的结论。
幸运的是,社会科学已经广泛研究了聚类标准误差的问题。当问题的包含是非独立的,我们建议将标准误差聚类在随机化单位上(例如,文本段落),并在论文中提供了适用的公式。
如果问题以相关集群的形式出现——这是阅读理解评估中的常见模式——评估分数将比非聚类情况更加分散。在实践中,我们发现流行评估中的聚类标准误差可能比简单的标准误差大三倍以上。忽略问题聚类可能导致研究人员无意中检测到模型能力的差异,而实际上并不存在这种差异。
减少问题内的方差
方差是衡量随机变量分散程度的指标。评估分数的方差是上述平均值的标准误差的平方;这个量取决于每个单独评估问题的分数的方差。
本文的一个关键见解是将模型在特定问题上的分数分解为两个相加的项:
- 平均分数(如果模型被无限次问到同一个问题,它将取得的平均分数——即使模型每次可能产生不同的答案);
- 随机成分(实现的问题分数与该问题的平均分数之间的差异)。
由于总方差定律,减少随机成分的方差直接导致总体平均值的标准误差变小,从而提高统计精度。我们的论文根据模型是否被要求在回答前逐步思考(一种称为CoT或链式思维推理的提示技巧)提出了两种减少随机成分方差的策略。
如果评估使用链式思维推理,我们建议从同一模型中多次重新采样答案,并使用问题级别的平均值作为输入中心极限定理的问题分数。我们注意到Inspect框架通过其epochs参数正确计算了标准误差。
如果模型非确定性地产生答案,那么为每个问题生成(并评分)多个答案将导致评估分数的分散程度降低。
如果评估不使用链式思维推理(即其答案不是“路径依赖”的),我们注意到可以通过语言模型的下一个标记概率来消除随机成分中的方差。例如,如果多项选择题的正确答案是“B”,我们只需使用模型产生标记“B”的概率作为问题分数。我们不知道任何开源评估框架实现了这种技术。
分析配对差异
评估分数本身没有任何意义;它们只有在相互关系中才有意义(一个模型优于另一个模型,或与另一个模型持平,或优于一个人)。但是,两个模型之间的测量差异是否是由于评估中问题的具体选择和模型答案的随机性造成的?我们可以通过使用来自两个评估分数的平均值的标准误差的双样本t检验来找出答案。
然而,双样本检验忽略了评估数据中的隐藏结构。由于问题列表在模型之间共享,进行配对差异检验可以让我们消除问题难度的方差,专注于响应的方差。在我们的论文中,我们展示了配对差异检验的结果将如何与两个模型的问题分数之间的皮尔逊相关系数相关。当相关系数较高时,平均差异的标准误差将较小。
在实践中,我们发现前沿模型在流行评估中的问题分数的相关性相当大——在−1到+1的范围内为0.3到0.7。换句话说,前沿模型总体上倾向于正确回答相同的问题和错误回答相同的问题。因此,配对差异分析代表了一种“免费”的方差减少技术,非常适合AI模型评估。因此,为了从数据中提取最清晰的信号,我们的论文建议在比较两个或多个模型时报告成对信息——平均差异、标准误差、置信区间和相关系数。
使用功效分析
统计显著性的另一面是统计功效,即统计检验在假设存在差异的情况下检测两个模型之间差异的能力。如果评估的问题不多,与任何统计检验相关的置信区间往往会很宽。这意味着模型需要在能力上有很大的潜在差异才能产生统计显著的结果——而小的差异很可能被忽略。功效分析指的是观察次数、统计功效、假阳性率和感兴趣的效应大小之间的数学关系。
在我们的论文中,我们展示了如何将功效分析的概念应用于评估。具体来说,我们展示了研究人员如何制定假设(例如,模型A比模型B高出3个百分点)并计算评估应该包含多少问题以测试这个假设与零假设(例如,模型A和模型B持平)。
我们相信功效分析将对研究人员在多种情况下有所帮助。我们的功效公式将告知模型评估者从问题中重新采样答案的次数(参见上述建议3),以及在保留所需功效属性的同时,随机子样本中可能包含的问题数量。研究人员可以使用功效公式得出结论,即具有有限问题数量的评估对于特定模型对来说不值得运行。新评估的开发者可能希望使用该公式来帮助决定包含多少问题。
常见的模型评估指标
在模型评估中,常用的指标包括准确率、精确率、召回率和F1分数等。这些指标从不同角度衡量模型的性能,帮助研究者全面了解模型的优势和局限。
准确率(Accuracy):计算公式为(TP + TN)/(TP + FP + TN + FN),表示被正确预测的样本占总样本的比例。尽管准确率是一个很直观的指标,但在数据不平衡的情况下,它可能会产生误导。
精确度(Precision):计算公式为TP /(TP + FP),表示在所有预测为真的样本中,实际为真的样本所占的比例。精确度是评估模型预测正类样本质量的一个好方法。
召回率(Recall):计算公式为TP /(TP + FN),表示在所有实际为真的样本中,被我们预测为真的样本的比例。召回率是评估模型找出正类样本能力的一个好方法。
F1分数(F1score):计算公式为2 x(Precision x Recall)/(Precision + Recall),是精确度和召回率的调和平均数,它试图在精确度和召回率之间达到平衡。在精确度和召回率同等重要的情况下,F1分数是一个有用的指标。它特别适用于不平衡数据集。
精确度(Precision)和召回率(Recall)通常被认为是相互对抗的,这种现象在统计学和机器学习中被称为精确度-召回率权衡(Precision-Recall Trade-off)。在很多情况下,提高精确度会降低召回率,反之亦然。这是因为:
提高精确度意味着模型在预测正类时更加谨慎,只有当模型非常确信一个样本是正类时才会这样预测。这可能会导致模型错过一些实际上是正类的样本(增加假负例),因此召回率下降。
提高召回率意味着模型努力识别更多的正类样本,包括那些模型不太确定的样本。这样做虽然能找回更多的真正例,但同时也可能增加假正例(即错误地将负类样本预测为正类),导致精确度下降。
在实际应用中,选择侧重于精确度还是召回率取决于具体问题的需求:
如果假正例的成本很高(例如,在医疗诊断中,错误地诊断一个健康的人为病人可能会导致不必要的焦虑和进一步的检查),那么可能更倾向于提高精确度。
如果假负例的成本很高(例如,在欺诈检测中,没能检测到一个真正的欺诈行为可能导致巨大的财务损失),那么可能更倾向于提高召回率。
模型评估流程
模型评估通常包括数据分割、训练、验证和测试等环节。合理的数据分割对于模型的泛化能力至关重要。常见的数据分割方法包括随机抽样、分层数据集分割和交叉验证分割等。
训练集:用于拟合模型的数据集部分。模型查看训练集中的数据并从中学习,以直接改进其参数。为了最大限度地提高模型性能,训练集必须(i)足够大以产生有意义的结果(但不能太大以至于模型过度拟合)并且(ii)能够代表整个数据集。这将使经过训练的模型能够预测未来可能出现的任何未见过的数据。当机器学习模型过于专业化和适应训练数据而无法概括并对新数据做出正确预测时,就会发生过度拟合。因此,过拟合模型在训练集上表现优异,但在验证集和测试集上表现不佳。
验证集:在训练期间用于评估和微调机器学习模型的数据集,有助于评估模型的性能并进行调整。通过在验证集上评估经过训练的模型,我们可以深入了解其泛化到未见过的数据的能力。此评估有助于识别潜在问题,例如过度拟合,这可能会对模型在现实场景中的性能产生重大影响。验证集对于超参数调整也至关重要。超参数是控制模型行为的设置,例如学习率或正则化强度。通过试验不同的超参数值,在训练集上训练模型,并使用验证集评估其性能,我们可以确定产生最佳结果的最佳超参数组合。这个迭代过程对模型进行微调并最大限度地提高其性能。
测试集:用于评估训练模型最终性能的数据集。它可以公正地衡量模型对未见过的数据的泛化程度,评估其在现实场景中的泛化能力。通过在整个开发过程中保持测试集独立,我们获得了模型性能的可靠基准。测试数据集还有助于衡量经过训练的模型处理新数据的能力。由于它代表模型以前从未遇到过的未见过的数据,因此评估模型在测试集上的拟合度为其实际适用性提供了一个公正的指标。此评估使我们能够确定经过训练的模型是否已成功学习相关模式,并且可以在训练和验证上下文之外做出准确的预测。
在分割数据集时,需要注意以下几点:
样本量不足:训练、验证或测试集中的样本量不足可能会导致模型性能指标不可靠。如果训练集太小,模型可能无法捕获足够的模式或不能很好地概括。同样,如果验证集或测试集太小,性能评估可能缺乏统计意义。
数据泄露:当验证集或测试集的信息无意中泄漏到训练集中时,就会发生数据泄漏。这可能会导致性能指标过于乐观,并对最终模型的准确性产生夸大的感觉。为了防止数据泄漏,确保训练集、验证集和测试集之间的严格分离至关重要,确保模型训练期间不使用评估集中的信息。
不正确的随机播放或排序:在分割之前错误地对数据进行洗牌或排序可能会引入偏差并影响最终模型的泛化。例如,如果数据集在分成训练集和验证集之前没有随机洗牌,则可能会引入模型在训练期间可以利用的偏差或模式。因此,经过训练的模型可能会过度拟合这些特定模式,并且无法很好地泛化到新的、未见过的数据。
最新研究进展
最新的研究进展进一步推动了AI模型评估方法的发展。例如,有研究展示了基于变换器的语言模型的自回归解码能够实现通用计算,无需外部干预或修改模型权重。另一项研究提出了一种新的模型编辑方法,即神经元级序列编辑(NSE),它通过优化目标层的隐藏状态来防止模型失败,并迭代选择多层中的神经元进行编辑,以减轻模型遗忘。
此外,研究者还提出了MotionBase,这是一个百万级别的运动生成基准数据集,提供了比以前最大数据集多15倍的数据量,并具有层次详细的文本描述。利用这个庞大的数据集,研究者的大型运动模型在广泛的运动上表现出色,包括以前未见过的运动。通过系统研究,强调了扩大数据和模型规模的重要性,合成数据和伪标签在减轻数据获取成本中发挥了关键作用。此外,研究揭示了现有评估指标的局限性,特别是在处理域外文本指令时——这是一个长期被忽视的问题。此外,研究者还介绍了一种新颖的2D查找自由运动标记方法,该方法保留了运动信息并扩展了码本容量,进一步增强了大型运动模型的表示能力。
结论
统计学方法在AI模型评估中的应用为研究者提供了一套科学严谨的工具,能够更准确地衡量模型性能并减少评估误差。随着AI技术的不断发展,这些方法将为推动人工智能领域的进步发挥重要作用。未来,我们可以期待看到更多创新的评估方法和指标的出现,以应对日益复杂的AI模型和应用场景。