斯坦福大学最新研究:大型语言模型的"涌现能力"或为统计幻觉
创作时间:
作者:
@小白创作中心
斯坦福大学最新研究:大型语言模型的"涌现能力"或为统计幻觉
引用
网易
1.
https://www.163.com/dy/article/IT0KED4405566VQ3.html
大型语言模型展现出"涌现能力" —— 即较小规模的模型所没有的能力,会在模型规模增大到一定程度时突然出现。这种突现能力引人注目,有两个原因:一是它的突兀性,从无到有似乎是一夜之间发生的转变;二是它的难以预测性,这些能力会在看似难以预料的模型规模下突然浮现。
NeurIPS 杰出论文奖得主,斯坦福大学研究人员的论文《大型语言模型的涌现能力是海市蜃楼吗?》对此进行了深入研究。研究团队通过实证测试、元分析和实验验证等方法,揭示了所谓的"涌现能力"可能只是由于评估指标选择不当造成的统计幻觉。
研究人员发现,对于特定任务和模型系列,所谓的涌现能力其实是由研究人员选择的评估指标造成的,而不是由于大规模导致的模型行为发生了根本变化。具体来说,非线性或不连续的指标会产生明显的涌现能力现象,而线性或连续的指标则会显示出模型性能的平滑、连续和可预测的提升。
为了验证这一发现,研究团队采用了三种方法:
- 使用OpenAI的InstructGPT/GPT-3模型系列在此前被认为存在涌现能力的任务上进行实证测试,发现改变评估指标就能消除这种现象
- 对BenchBig等公开数据集上的突现能力现象进行元分析,也验证了指标的选择是关键因素
- 通过有意识地改变指标,在多个视觉任务上的不同深度网络中人为诱发从未见过的"涌现能力"
通过以上三种分析,研究人员提供了证据,表明所谓的涌现能力在改变评估指标或使用更好的统计方法后就会消失,它可能不是人工智能模型进阶的一个根本性特征。
该论文的作者指出,他们的发现有几个重要含义:
- 在构建基准测试时,任务本身和评估指标是两个有意义的选择
- 在选择指标时,需要考虑其对单词误差率的影响,并相应地调整评估过程,避免得出无效的科学结论
- 在声称大规模模型具有某些新能力时,需要做适当控制以避免多重比较问题
- 公开模型和输出结果,有助于科学界进行独立审视和评估
吴恩达对这项研究的评论:当我们实现 AGI 时,它将会慢慢到来,而不是一蹴而就。当很多人突然意识到某项技术(也许是发展已久的技术)时,公众的认知会出现不连续性,从而带来惊喜。但人工智能能力的增长比人们想象的更加持续。 这就是为什么我们期望通往 AGI 的道路是一条包含无数前进步骤的道路,从而逐步提高我们系统的智能程度。
热门推荐
肯尼亚鲁班工坊:架起中肯技术人文交流之桥
中国歼-20战斗机,在世界现役五代机中,能排第几名?
贵州关岭:黄精种植开启乡村致富“黄金路”
胆囊息肉吃什么药治疗效果好
中国人口结构变化,多个教育类专业,连续多年被预警!
劳务公司拖欠工资怎样走法律途径
最新!北京多区普高率来了!2024北京中考数据揭秘
东楮岛村:“生态+民宿”双引擎,跑出村落保护加速度
医疗事故原始病历封存:保障患者权益的重要措施
刚毕业的大专护士工资一般多少?
如何在购房时做出明智选择?这些注意事项请收好
金针菇怎么洗,金针菇清洗大揭秘,从挑选到享用,每一步都不可少
创新高!春运厦航运送旅客超558万人次
北京市医保局:符合这12类适应证,干细胞移植可报销
什么是长焦镜头的“空间压缩感”?如何运用压缩感 ?
《六姊妹》大结局:亲情背叛、债务危机,张建国意外逆袭成赢家!
Blender如何制作铝材质?
十大会议茶歇糕点推荐 常见的茶歇点心有哪些
心学问教育咨询,亲子关系的情感纽带:通过家庭传统与仪式增强联系
如何利用AI智能提升安全风险管控效率
韦德的NBA职业生涯:光辉成就与遗憾之旅
八字返财是什么意思,八字反局的几个条件
全麦面包选购指南:配料表少这3个字,可能是"伪全麦"!(附做法)
教育的变革与挑战:探讨中国十二年义务教育的影响与发展历程
《六姊妹》开播好评如潮,梅婷再演年代剧女主,真诚才是必杀技
西藏博物馆改扩建项目设计:传统与现代的完美融合
社保补缴申请怎么写,流程是什么
如何通过项目实践动手学深度学习?
产品经理和程序员哪个有前途?怎么选择?
猪和虎破合为什么6合:传统生肖配对的奥秘