问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI科研能力超过人类了吗(o1 vs cladue科研挑战)

创作时间:
作者:
@小白创作中心

AI科研能力超过人类了吗(o1 vs cladue科研挑战)

引用
1
来源
1.
https://www.aibox365.cn/kuaixun/139.html

近期,非营利研究机构METR推出了一项名为“RE-Bench”的新评估基准,旨在明确AI智能体在自动化科研方面能与人类专家匹敌到什么程度。通过对比Claude 3.5 Sonnet和o1-preview智能体与50多位机器学习专家的表现,研究揭示了AI在科研领域的潜力与局限。

实验设计

  • 环境设置:每个环境提供了一个起始解决方案、一台带有1-6个H100 GPU的机器和一个评分函数。评分函数定义了环境的目标,并可以在任何时候运行。

  • 人类专家基线:从METR员工的专业网络、METR的机器学习研究科学家/工程师职位申请者以及加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和麻省理工学院的研究生中选择人类专家。每位专家在8小时内完成基线测试。

  • 代理评估:使用Vivaria平台设置安全的VM,配备20-48个vCPU、200-400 GB RAM和0到6个H100 GPU。评估了Claude 3.5 Sonnet和o1-preview两种代理模型,分别在不同时间限制和样本数量下进行。

结果令人意外

  • 短时间内,AI超越人类专家:在前2小时的竞赛中,AI的表现全面碾压,提交新解决方案的速度更是人类的十倍以上。

  • 拐点出现:随着时间拉长(8小时后),人类展现了更显著的能力增长曲线。

  • 长时间任务仍需依赖人类:32小时的研究发现,AI更适合大量并行处理短任务,而人类在复杂、长期科研任务中的表现更优。

AI更快更“能干”,但还是缺点啥?

从效率和表现上看,AI智能体确实亮点满满:

  • GPU编程无敌手:在优化GPU内核的任务中,AI的表现超越了所有人类专家。

  • 超快提交:AI的解决方案提交速度高于人类专家十倍以上,且偶尔能找到出人意料的高效方案。

  • 低成本运行:AI的“科研成本”远低于雇佣顶级专家团队。

尽管如此,研究也表明:

  • AI智能体在较长时间内(8小时及以上)的能力增速较缓,人类的后劲表现更加明显。

  • AI在复杂问题上的创新思维与跨领域理解仍不如人类专家。

“AI和人类专家的科研效率对比图:AI在短时间内占优,但长时间任务中人类后来居上。”

RE-Bench的任务:量化AI的科研能力

之所以提出RE-Bench,是因为现有的AI科研能力评估标准存在明显局限:

  • 侧重短期、狭窄任务。

  • 缺乏与人类专家的直接对比。

RE-Bench提供了一套更全面的评估体系,涵盖以下7项核心科研能力:

  • 高效编程:包括优化算法和GPU内核函数。

  • 机器学习理论与实践:训练、调优和评估模型。

  • 数据处理与分析。

  • 创新思维:提出新方法、策略和跨领域思考。

  • 技术设计:包括软件架构设计。

  • 问题解决能力。

  • 自动化工具开发:加速科研流程。

RE-Bench的任务设计具有以下特点:

  • 独立环境:每项任务独立运行,目标清晰,比如优化GPU内核或调整机器学习模型的超参数。

  • 公平对比:人类和AI在相同环境下工作,使用相同计算资源。

  • 多样评分机制:通过任务完成效率和性能打分,得分会在不同任务间归一化,便于横向比较。

未来展望

AI在科研上的表现已证明其潜力巨大,但研究表明,人类与AI在科研上的协同或将是未来发展的关键:

  • AI专注并行化短任务,提升效率;

  • 人类聚焦复杂问题,提供深度创新。

无论如何,AI已成为科研工作中不可忽视的一部分,其能力的不断提升正在重塑科学研究的未来。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号