“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
创作时间:
作者:
@小白创作中心
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
引用
IT之家
1.
https://www.ithome.com/0/827/044.htm
非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。
该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。
在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。
CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。
热门推荐
债权债务纠纷找谁处理纠纷
抗感染注射剂市场全景图
自闭症儿童尿床解决之道:系统的如厕训练与强化策略
如何优化负载均衡以提升系统性能和稳定性?
工资协议是什么?一文详解工资协议的定义、内容和争议处理
食品安全检测仪的校准与维护指南
中远海运、招商轮船,近日纷纷取得重大突破!
霸王茶姬回应“喝完心悸进医院” 专家呼吁增加咖啡因警示信息
明朝灭亡问题根源就在朱元璋,他一个决定直接影响大明王朝的存亡
“非遗+”激活文旅“一池春水” 温州3地入选全省非遗主题旅游景区
平衡膳食,“营”在节气——惊蛰
PCB叠层基础知识:PP片与CORE芯板的作用解析
消防蓝朋友在线教学:手提式干粉灭火器的正确使用方法
蟳埔簪花映海丝 文旅融合谱新篇
闲鱼简介怎么写吸引人?有什么技巧?
继电器的保护二极管如何选择
“南方报系”的发展简史及影响力研究
发烧致心脏停跳 52 小时?!警惕暴发性心肌炎,「感冒」背后的致命「幽灵」!
如何深入分析黄金买卖的行为?这种分析对投资决策有何帮助?
高盐食物有哪些危害?一文读懂高盐饮食的危害与预防
民政局能否查询婚姻状况?法律专家详解相关规定
葫芦岛市文物古迹介绍
一文看懂抛丸机:工业表面处理的“神奇工匠”
徽派合院建筑的风格特点和美学意义
大学老师被举报上课太“水”,你的大学上过“水课”吗?你认为怎样的课算“水课呢?
避免高嘌呤食物痛风会发作吗
漓江精华游:百里漓江画廊的绝美风光
《简·爱》的批判性解构:当灰姑娘戴上荆棘冠冕
范文如何学习精读(学习精读有效的步骤)
乳化剂添加到食品中?生活中这些食品中含有它……