问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

人工智能评测新范式:解锁AI性能的可解释力与预测力

创作时间:
作者:
@小白创作中心

人工智能评测新范式:解锁AI性能的可解释力与预测力

引用
1
来源
1.
https://www.53ai.com/news/LargeLanguageModel/2025032627084.html

随着人工智能的快速发展,对其性能的可解释性和可预测性评估成为了一个重要课题。近日,由剑桥大学、微软亚洲研究院等机构组成的跨学科研究团队提出了一种全新的AI评估范式,通过构建通用能力量表实现了对AI系统的可解释性和可预测性评估,为破解AI"黑箱"难题提供了关键的科学理论支撑。

研究背景与挑战

人工智能已广泛渗透至众多领域,但其性能的可解释性和可预测性方面仍有极大欠缺。目前,传统的以性能为导向的评估方法在个体任务实例层面均缺乏解释力与预测力。例如,某一模型在AIME(美国数学邀请赛)等流行的数学基准测试上取得了79.8%的平均性能,但这一数据无法预测或解释其对单个任务的表现,也难以推测其在其他测试中的能力。

新评估范式的核心创新

由剑桥大学、微软亚洲研究院、瓦伦西亚理工大学、美国教育考试服务中心、卡内基梅隆大学、普林斯顿大学等机构组成的跨学科研究团队,近期提出了一种创新性的人工智能评估范式:通过制定通用能力量表来详细刻画基准和大模型,来实现解释和预测。该研究突破了传统评估方法的局限,为人工智能的可靠部署奠定了坚实的基础。

ADeLe:通用能力量表的标注需求层级框架

研究员们首先构建了18个人类可理解的通用能力量表,其中涵盖11项基础认知能力、5类知识领域及2项外部干扰因素(详见表1)。每个量表定义了从层级0到层级5的递进式需求标准,层级越高表明任务对该能力的高阶要求越强。例如,在"形式科学知识(KNf)"量表中,层级0表示任务无需形式科学知识即可解决,而层级5则要求具备研究生及以上水平的专业知识。


表1:标准集中18个通用能力量表的描述(范围从0到5)

基于上述框架,研究员们采用GPT-4o对来自20个基准测试的63项下游任务共计1.6万个实例进行全维度需求层级标注,构建了ADeLe(Annotated-Demand-Levels)v1.0数据集,其包含所有1.6万个任务实例和需求标注。ADeLe数据集巧妙地将大量不同基准的任务实例放置在同一个可比空间中,使科研人员能够在评估任何大语言模型的能力和局限性时,解锁解释力和预测力。图2直观展示了ADeLe数据集中五个实例和它们的标注。


图2:使用DeLeAn标准对五个示例的级别标注

解释力与预测力的双重突破

基于ADeLe测试集,研究团队开展了三项核心分析,揭示了若干重要发现:

1. 通过任务需求概况揭示AI基准测试的固有缺陷

通过对20个基准测试的需求层级进行分析,研究发现所有基准均存在概念效度缺失问题——既不能有效测量其宣称的目标能力(特异性不足),也未能在目标能力维度上覆盖足够的难度范围(灵敏度不足)。例如,“公务员考试”基准(Civil Service Examination)声称能够测量逻辑推理能力,但从任务需求概况(图3)来看,任务的成功完成同时高度依赖知识储备、元认知等其他能力。另外一个例子是“时间推理”基准(TimeQA),其推理能力需求层级分布过于集中,无法有效区分不同任务需求层级或难度水平。采用ADeLe方法论优化基准设计,可以通过构建精确的任务需求概况确保基准测试的结构效度,明确界定其测量目标并评估其适用边界。


图3:ADeLe测试套件v.1.0所包含的20个基准测试的需求分布情况

2. 大语言模型能力概况的深度解析

研究员们绘制了15个主流大语言模型在18个能力维度的受试者特征曲线(SCC),此曲线描述了大模型在不同能力需求层级上的正确率并拟合了逻辑函数。这类曲线可以使15个不同LLMs的能力优缺点得到全面描述(图4)。


图4:15个LLMs在18个需求维度上的特征曲线

此外,通过计算每个维度的能力得分总结SCC,再按照心理测量学的传统,将其定义为SCC中成功概率为0.5的x值(斜率/信息量最大的点),就产生了许多见解。这些见解主要有:

  1. 新的LLMs整体能力优于旧的LLMs,但对于所有能力,这一结论并非总是成立;
  2. 知识能力主要由模型大小和蒸馏过程的变化决定和限制;
  3. 推理、学习和抽象以及社交能力在“推理”模型中得到了改善;
  4. 规模法则(Scaling Law)对非推理类模型的边际效益呈递减趋势。

3. 优于黑箱的实例级性能预测模型

研究员们以需求层级向量为输入特征,训练了随机森林分类器作为评估员去预测LLMs在新任务实例中的表现。实验表明,该模型在分布内外数据中均实现了优异的预测性能:在对前沿模型的预测中,AUROC(Area Under the Receiver Operating Characteristic Curve)值最高达0.88,且校准误差接近完美,显著优于基于GloVe词向量与微调LLaMA-3.1-8B的黑箱基线方法,尤其是在分布外数据上。这进一步验证了该新范式的科学性。

未来展望

目前,该方法已成功应用于15个主流LLMs的评估。研究团队计划将其扩展至多模态、具身智能等场景,为人工智能研发、政策制定与安全审计提供科学化、标准化的评估基础设施。此项工作首次实现了解释力与预测力的协同突破,标志着人工智能评估科学的一个重要进展。通过构建可扩展的协作社区,该方法将持续推动人工智能系统性能与安全性的可解释性与可预测性,为应对通用型人工智能快速发展带来的评估挑战提供关键的方法论支撑。

论文链接:
https://arxiv.org/abs/2503.06378

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号