“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
创作时间:
作者:
@小白创作中心
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
引用
IT之家
1.
https://www.ithome.com/0/827/044.htm
非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。
该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。
在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。
CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。
热门推荐
父母离婚再婚对孩子的影响分析 离异再婚家庭孩子的心理调整
入局电池行业,小米携手宁德时代成立合资公司
电影文件名中的缩写例如NF、WEB-DL、DDP5.1.Atmos表示什么意思?
从精神动力学角度分析电影《无极》中谢霆锋饰演的角色无欢
不来新疆看一次胡杨林,就不足以谈秋天!
微信买卖交易,应留存重要证明以保障交易安全
新股投资指南:不同类型新股的特点及投资策略
650万司机面临失业,为何还力推无人驾驶?背后竟藏着一盘大棋!
齐桓公:春秋首霸的崛起与称霸时间
雨天在户外充电,这份安全指南请收好!
如何根据90平方米别墅设计图纸优化空间利用和布局?
涨超3%!北交所行情爆发!后市如何?
汉武帝的改革措施及影响
被人骚扰应该怎么办
停车场消防通道设计规范与优化建议
中医血脉理论:从基本概念到临床应用
1000多万外地人都住在上海哪里
基金复利的计算原理及投资策略是什么?这种计算原理在基金投资中有哪些应用?
字节旗下红果短剧被广电约谈,微短剧进入强监管时代
司美格鲁肽片剂和针剂:使用效果大不同?
如何制定有效的绩效管理制度?——探索绩效管理制度的原则
劳动者必知的八大权益
如何把握黄金白银价格的趋势走向?这种趋势走向受哪些宏观因素影响?
珠宝玉石及其饰品检测
海外直播软件评测:专业与实用的选择
有机改良剂提升盐碱地土壤质量和作物生产力被定量评价
盐碱地上种蜜梨
男生在街上小便犯法吗?法律解读与后果分析
ArcGIS Pro全流程实践指南:从基础理论到高级应用
血压偏高有什么症状