问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AI科研能力超过人类了吗（o1 vs cladue科研挑战）

创作时间:

作者:

@小白创作中心

AI科研能力超过人类了吗（o1 vs cladue科研挑战）

引用

1

来源

1.

https://www.aibox365.cn/kuaixun/139.html

近期，非营利研究机构METR推出了一项名为“RE-Bench”的新评估基准，旨在明确AI智能体在自动化科研方面能与人类专家匹敌到什么程度。通过对比Claude 3.5 Sonnet和o1-preview智能体与50多位机器学习专家的表现，研究揭示了AI在科研领域的潜力与局限。

实验设计

环境设置：每个环境提供了一个起始解决方案、一台带有1-6个H100 GPU的机器和一个评分函数。评分函数定义了环境的目标，并可以在任何时候运行。
人类专家基线：从METR员工的专业网络、METR的机器学习研究科学家/工程师职位申请者以及加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和麻省理工学院的研究生中选择人类专家。每位专家在8小时内完成基线测试。
代理评估：使用Vivaria平台设置安全的VM，配备20-48个vCPU、200-400 GB RAM和0到6个H100 GPU。评估了Claude 3.5 Sonnet和o1-preview两种代理模型，分别在不同时间限制和样本数量下进行。

结果令人意外

短时间内，AI超越人类专家：在前2小时的竞赛中，AI的表现全面碾压，提交新解决方案的速度更是人类的十倍以上。
拐点出现：随着时间拉长（8小时后），人类展现了更显著的能力增长曲线。
长时间任务仍需依赖人类：32小时的研究发现，AI更适合大量并行处理短任务，而人类在复杂、长期科研任务中的表现更优。

AI更快更“能干”，但还是缺点啥？

从效率和表现上看，AI智能体确实亮点满满：

GPU编程无敌手：在优化GPU内核的任务中，AI的表现超越了所有人类专家。
超快提交：AI的解决方案提交速度高于人类专家十倍以上，且偶尔能找到出人意料的高效方案。
低成本运行：AI的“科研成本”远低于雇佣顶级专家团队。

尽管如此，研究也表明：

AI智能体在较长时间内（8小时及以上）的能力增速较缓，人类的后劲表现更加明显。
AI在复杂问题上的创新思维与跨领域理解仍不如人类专家。

“AI和人类专家的科研效率对比图：AI在短时间内占优，但长时间任务中人类后来居上。”

RE-Bench的任务：量化AI的科研能力

之所以提出RE-Bench，是因为现有的AI科研能力评估标准存在明显局限：

侧重短期、狭窄任务。
缺乏与人类专家的直接对比。

RE-Bench提供了一套更全面的评估体系，涵盖以下7项核心科研能力：

高效编程：包括优化算法和GPU内核函数。
机器学习理论与实践：训练、调优和评估模型。
数据处理与分析。
创新思维：提出新方法、策略和跨领域思考。
技术设计：包括软件架构设计。
问题解决能力。
自动化工具开发：加速科研流程。

RE-Bench的任务设计具有以下特点：

独立环境：每项任务独立运行，目标清晰，比如优化GPU内核或调整机器学习模型的超参数。
公平对比：人类和AI在相同环境下工作，使用相同计算资源。
多样评分机制：通过任务完成效率和性能打分，得分会在不同任务间归一化，便于横向比较。

未来展望

AI在科研上的表现已证明其潜力巨大，但研究表明，人类与AI在科研上的协同或将是未来发展的关键：

AI专注并行化短任务，提升效率；
人类聚焦复杂问题，提供深度创新。

无论如何，AI已成为科研工作中不可忽视的一部分，其能力的不断提升正在重塑科学研究的未来。

热门推荐

女命八字火土伤官：热情与智慧的完美结合

女命八字火土伤官：热情与智慧的完美结合

加油站用防爆配电箱：保障安全与效率的关键设备

加油站用防爆配电箱：保障安全与效率的关键设备

有效抑制体内肿瘤生长！复旦大学/南昌大学合作发文：有前景的癌症靶向治疗新策略

有效抑制体内肿瘤生长！复旦大学/南昌大学合作发文：有前景的癌症靶向治疗新策略

3D打印多少一克？解析3D打印成本背后的经济逻辑

3D打印多少一克？解析3D打印成本背后的经济逻辑

构建智能连接的未来：物联网平台系统架构解析

构建智能连接的未来：物联网平台系统架构解析

洗洁精去油污的原理

洗洁精去油污的原理

原单位不给停社保怎么办？一文详解解决方法

原单位不给停社保怎么办？一文详解解决方法

已超6家跟进，合资车企力推的“一口价”暗藏玄机

已超6家跟进，合资车企力推的“一口价”暗藏玄机

2025年高考各省用什么卷子？附全国各省用卷+试卷结构情况

2025年高考各省用什么卷子？附全国各省用卷+试卷结构情况

纳兰性德简介及生平事迹，人生若只如初见

纳兰性德简介及生平事迹，人生若只如初见

小紫管大妙用-如何通过血常规指标区别细菌感染和病毒感染

小紫管大妙用-如何通过血常规指标区别细菌感染和病毒感染

野生獐子是几级保护动物，国家二级(捕杀一只普通的判5年)

野生獐子是几级保护动物，国家二级(捕杀一只普通的判5年)

前庭功能恢复锻炼：五种科学方法助你改善眩晕症状

前庭功能恢复锻炼：五种科学方法助你改善眩晕症状

前庭神经元炎的治疗方法有什么

前庭神经元炎的治疗方法有什么

激光嫩肤手术需要几个疗程？

激光嫩肤手术需要几个疗程？

陈炳：基本功是练好太极拳的捷径

陈炳：基本功是练好太极拳的捷径

国投集团：如何管控混改企业？

国投集团：如何管控混改企业？

最高车速是多少公里？车辆的最高时速对性能有何影响？

最高车速是多少公里？车辆的最高时速对性能有何影响？

28 种最适合您的视频的字体配对

28 种最适合您的视频的字体配对

重庆啤酒业绩下滑，高端化战略受挫，内斗风波影响几何？

重庆啤酒业绩下滑，高端化战略受挫，内斗风波影响几何？

ICMP协议的核心功能与应用场景

ICMP协议的核心功能与应用场景

99%人都用不了的Manus：AI「奇迹」，与虚假的技术突破

99%人都用不了的Manus：AI「奇迹」，与虚假的技术突破

意大利面怎么检验？意大利面检验项目及标准盘点

意大利面怎么检验？意大利面检验项目及标准盘点

2024年反诈大数据：这五类诈骗最常见，这类人群需警惕

2024年反诈大数据：这五类诈骗最常见，这类人群需警惕

网暴为何层出不穷？心理学解读暴力背后的原因

网暴为何层出不穷？心理学解读暴力背后的原因

植树节可以举办什么活动

植树节可以举办什么活动

抽油烟机能用几年？换新时机与保养秘诀

抽油烟机能用几年？换新时机与保养秘诀

成都拟立法保障公共场所AED配置让“救命神器”真正发挥作用

成都拟立法保障公共场所AED配置让“救命神器”真正发挥作用

人大代表建议：公共场所AED要数量多、找得到、用得来

人大代表建议：公共场所AED要数量多、找得到、用得来

AI会抢走普通人的工作吗？真相可能让你意外

AI会抢走普通人的工作吗？真相可能让你意外

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号