AI科研能力超过人类了吗(o1 vs cladue科研挑战)
AI科研能力超过人类了吗(o1 vs cladue科研挑战)
近期,非营利研究机构METR推出了一项名为“RE-Bench”的新评估基准,旨在明确AI智能体在自动化科研方面能与人类专家匹敌到什么程度。通过对比Claude 3.5 Sonnet和o1-preview智能体与50多位机器学习专家的表现,研究揭示了AI在科研领域的潜力与局限。
实验设计
环境设置:每个环境提供了一个起始解决方案、一台带有1-6个H100 GPU的机器和一个评分函数。评分函数定义了环境的目标,并可以在任何时候运行。
人类专家基线:从METR员工的专业网络、METR的机器学习研究科学家/工程师职位申请者以及加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和麻省理工学院的研究生中选择人类专家。每位专家在8小时内完成基线测试。
代理评估:使用Vivaria平台设置安全的VM,配备20-48个vCPU、200-400 GB RAM和0到6个H100 GPU。评估了Claude 3.5 Sonnet和o1-preview两种代理模型,分别在不同时间限制和样本数量下进行。
结果令人意外
短时间内,AI超越人类专家:在前2小时的竞赛中,AI的表现全面碾压,提交新解决方案的速度更是人类的十倍以上。
拐点出现:随着时间拉长(8小时后),人类展现了更显著的能力增长曲线。
长时间任务仍需依赖人类:32小时的研究发现,AI更适合大量并行处理短任务,而人类在复杂、长期科研任务中的表现更优。
AI更快更“能干”,但还是缺点啥?
从效率和表现上看,AI智能体确实亮点满满:
GPU编程无敌手:在优化GPU内核的任务中,AI的表现超越了所有人类专家。
超快提交:AI的解决方案提交速度高于人类专家十倍以上,且偶尔能找到出人意料的高效方案。
低成本运行:AI的“科研成本”远低于雇佣顶级专家团队。
尽管如此,研究也表明:
AI智能体在较长时间内(8小时及以上)的能力增速较缓,人类的后劲表现更加明显。
AI在复杂问题上的创新思维与跨领域理解仍不如人类专家。
“AI和人类专家的科研效率对比图:AI在短时间内占优,但长时间任务中人类后来居上。”
RE-Bench的任务:量化AI的科研能力
之所以提出RE-Bench,是因为现有的AI科研能力评估标准存在明显局限:
侧重短期、狭窄任务。
缺乏与人类专家的直接对比。
RE-Bench提供了一套更全面的评估体系,涵盖以下7项核心科研能力:
高效编程:包括优化算法和GPU内核函数。
机器学习理论与实践:训练、调优和评估模型。
数据处理与分析。
创新思维:提出新方法、策略和跨领域思考。
技术设计:包括软件架构设计。
问题解决能力。
自动化工具开发:加速科研流程。
RE-Bench的任务设计具有以下特点:
独立环境:每项任务独立运行,目标清晰,比如优化GPU内核或调整机器学习模型的超参数。
公平对比:人类和AI在相同环境下工作,使用相同计算资源。
多样评分机制:通过任务完成效率和性能打分,得分会在不同任务间归一化,便于横向比较。
未来展望
AI在科研上的表现已证明其潜力巨大,但研究表明,人类与AI在科研上的协同或将是未来发展的关键:
AI专注并行化短任务,提升效率;
人类聚焦复杂问题,提供深度创新。
无论如何,AI已成为科研工作中不可忽视的一部分,其能力的不断提升正在重塑科学研究的未来。