资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

MLGym：推进人工智能研究代理的新框架与基准

创作时间:

作者:

@小白创作中心

MLGym：推进人工智能研究代理的新框架与基准

引用

CSDN

https://m.blog.csdn.net/m0_66899341/article/details/145787613

Meta MLGym和MLGym-Bench是首个面向机器学习（ML）任务的Gym环境，使得能够研究用于训练此类代理的强化学习（RL）算法。MLGym-Bench包含来自计算机视觉、自然语言处理、强化学习和博弈论等多个领域的13项多样且开放式的AI研究任务。

1. 引言

1.1 研究背景与动机

随着人工智能（AI）技术的飞速发展，科学发现的加速成为了一个长期追求的目标。早期的探索如1979年的橡树岭应用人工智能项目等，已经为AI在科学发现中的应用奠定了基础。近年来，随着基础模型（Foundation Models）的进步，如GPT-4等，AI在自动化科学论文生成等方面展现出了巨大的潜力。然而，目前缺乏一个全面的框架和基准来评估AI研究代理在开放式AI研究任务中的能力。

1.2 研究目标

本文提出了Meta MLGym和MLGym-Bench，这是一个新的框架和基准，旨在评估和开发在AI研究任务中的大型语言模型（LLM）代理。该框架使得能够研究用于训练此类代理的强化学习（RL）算法，并包含来自多个领域的多样且开放式的AI研究任务。

2. MLGym框架介绍

2.1 框架概述

MLGym是一个统一的框架，旨在将多样且开放式的AI研究任务集成到一个单一的平台中，用于开发和评估LLM代理。该框架受到了强化学习领域的启发，并构建了一个Gym环境，使得可以在本地Docker机器shell中执行shell命令。

2.2 核心组件

MLGym提供了四个核心组件：代理（Agents）、环境（Environment）、数据集（Datasets）和任务（Tasks）。

代理（Agents）：代理类作为基础LLM的包装器，提供了集成各种基础模型、历史处理器和成本管理的功能。MLGym将代理与环境分离，使得可以轻松集成外部代理，并公平地比较不同基础模型在给定代理框架下的性能。
环境（Environment）：环境组件负责在本地Docker机器中初始化一个shell环境，安装任务特定的Python依赖项，复制所有必要的数据和代码到单独的代理工作区，并管理LLM代理与系统之间的交互。
数据集（Datasets）：MLGym提供了一个简单的抽象来定义数据集，支持本地存储和Hugging Face数据集。数据集定义与任务定义解耦，使得单个数据集可以在多个任务中使用。
任务（Tasks）：MLGym提供了一个简单的抽象来定义任何ML研究任务，包括一个或多个数据集、自定义评估脚本、任务特定的conda环境、可选的启动代码、训练超时和内存管理设置。

2.3 框架优势

MLGym框架的设计决策旨在减少开发人员和研究人员的开销，并增强可重复性。其模块化设计使得可以轻松扩展库，例如实现其他代理框架、添加更多工具、数据集和任务。

3. MLGym-Bench基准介绍

3.1 基准概述

MLGym-Bench是一个包含13项多样且开放式的AI研究任务的基准，涵盖计算机视觉、自然语言处理、强化学习和博弈论等多个领域。这些任务旨在评估代理在现实世界中执行复杂AI研究任务的能力。

3.2 任务详情

3.2.1 数据科学任务

房价预测（House Price Prediction）：使用Kaggle房价数据集预测房价，评估模型基于各种特征准确预测价格的能力。
3-SAT：在给定DPLL代码的基础上，优化变量选择启发式，以更快解决3-SAT实例。

3.2.2 计算机视觉任务

图像分类（CIFAR-10）：使用CIFAR-10数据集对图像进行分类，评估模型学习视觉模式和特征的能力。
图像分类（Fashion MNIST）：对时尚物品进行分类，评估模型在不同数据集上的泛化能力。
图像描述（MS-COCO）：为MS-COCO数据集中的图像生成描述，评估模型在图像和文本之间建立关联的能力。

3.2.3 自然语言处理任务

自然语言推理（MNLI）：在MNLI基准上微调预训练的BERT模型，评估模型在自然语言推理任务上的性能。
语言建模（Language Modeling）：使用FineWeb数据集训练语言模型，评估模型在文本生成任务上的表现。

3.2.4 强化学习任务

MetaMaze导航：在网格世界环境中导航并到达目标位置，评估模型在强化学习环境中的决策能力。
MountainCar连续控制：学习一种策略以驱动小车爬上陡峭的山坡，评估模型在连续控制任务中的表现。
Breakout MinAtar：在模拟环境中玩Breakout游戏，评估模型在游戏环境中的决策和规划能力。

3.2.5 博弈论任务

重复囚徒困境（Prisoner’s Dilemma）：在重复博弈中制定策略以最大化得分，评估模型在博弈论环境中的战略选择能力。
性别之战（Battle of the Sexes）：在协调博弈中制定策略以最大化双方的共同利益，评估模型在需要协调的环境中的决策能力。
Colonel Blotto游戏：在资源分配博弈中制定策略以最大化赢得的战场数量，评估模型在策略分配和预测对手行动方面的能力。

3.3 评估方法

每个任务都伴随着标准化的评估脚本和基线实现，提供了一个清晰的性能评估参考点。MLGym支持灵活的评估工件，如模型权重、RL训练算法或代表游戏理论策略的代码。

4. 实验设置与结果

4.1 实验设置

代理与模型：使用基于SWE-Agent的模型，并配置了五个前沿LLM，包括OpenAI O1-preview、Gemini-1.5-Pro、Claude-3.5-sonnet、Llama-3.1-405b-instruct和GPT-4o。
环境配置：MLGym环境配置了窗口大小、上下文管理、命令接口等关键参数，以促进代理与任务之间的有效交互。

4.2 实验结果

性能评估：使用性能曲线（Performance Profiles）和AUP（Area Under the Performance Profile）分数来比较不同模型在多个任务上的相对性能。实验结果表明，OpenAI O1-preview在总体性能上表现最佳，但Gemini-1.5-Pro在成本效益方面表现最佳。
行为分析：对代理的行为进行了详细分析，包括终止错误分布、失败或不完整运行率以及任务特定失败模式。分析表明，代理在解决复杂任务时面临挑战，如语言建模和强化学习任务。

5. 讨论与局限

5.1 研究贡献

新框架与基准：提出了MLGym框架和MLGym-Bench基准，为评估和开发LLM代理提供了新的工具。
性能评估：使用性能曲线和AUP分数为比较不同模型在多个任务上的性能提供了新的方法。
行为分析：对代理的行为进行了深入分析，揭示了代理在解决复杂任务时面临的挑战。

5.2 局限性与未来工作

任务扩展：目前的任务集主要集中在AI领域，未来需要扩展到更多领域以评估代理的跨领域能力。
泛化能力：需要研究代理在未见过的任务和数据集上的泛化能力。
科学新颖性：如何自动化评估代理生成的科学新颖性仍然是一个开放问题。

6. 结论

本文提出了MLGym框架和MLGym-Bench基准，为评估和开发LLM代理提供了新的工具和方法。实验结果表明，当前的前沿模型在给定基线上有所改进，但并未生成新的假设、算法或架构。未来工作将集中在扩展任务集、研究泛化能力以及自动化评估科学新颖性等方面。通过开源MLGym框架和基准，我们期望能够促进未来在提升LLM代理的AI研究能力方面的研究。