“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
创作时间:
作者:
@小白创作中心
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
引用
IT之家
1.
https://www.ithome.com/0/827/044.htm
非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。
该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。
在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。
CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。
热门推荐
九大类安全防护用品功能详解
《和平精英》新春荣都版本上线,大唐西安等你来战!
你脱发吗?困扰很多人的问题,预防和治疗同等重要
被脱发困住的中年人,正积极自救
男性脱发全攻略:原因、类型、解决方案及常见迷思
原来常戴帽子会加重脱发?防脱攻略来了
唐代开创性规定冤案赔偿,但仅限免役
陆良法院三年审结73件涉未成年人案件,构建全方位保护体系
清洁能源装机超14亿千瓦,中国新型能源体系建设全面提速
“喜相逢20元”刮刮乐:最高80万大奖,理性购彩更精彩
生姜治脱发:仅对斑秃有效,其他类型需谨慎
2025天津春节活动汇总:烟花秀、打铁花、舞龙舞狮等你来玩
年俗 | 大年初一,天津的这些“老例儿”你都知道吗?
太极拳:中国传统哲学的活态演绎
太极拳的实战智慧:以柔克刚的技击艺术
王重阳与太极拳:一个未解之谜
张三丰的传奇:太极拳的诞生
《哪吒之魔童闹海》:视效突破与审美争议中的中国动画新高度
小青龙价格100-300元/斤,季节规格产地是关键
金竹与金镶玉竹:外观、用途及价格全解析
电影营销,“功臣”还是“原罪”
LDH手术新发现:重度腰痛术后改善效果不逊中度患者
2025年天蝎座感情运:上半年重独立,下半年遇良缘
天蝎座为何选择分手?忠诚背叛等七大因素全解析
与大自然共舞,西双版纳生态旅游攻略
曼听御花园:西双版纳最古老的傣王御花园
上海话剧艺术中心2025演出季:六大剧目亮点纷呈,演绎话剧艺术新魅力
《大奉打更人》:2025开年剧集的热议与争议
起火、漏电、烫伤……智能马桶行业乱象将上“紧箍咒”
迷你枪战精英兑换码使用指南:时效性与获取渠道全解析