问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MIT开发高效算法大幅降低强化学习训练成本

创作时间:
作者:
@小白创作中心

MIT开发高效算法大幅降低强化学习训练成本

引用
1
来源
1.
https://tech.sina.cn/2024-11-29/detail-incxtvcn8577131.d.html?vt=4

麻省理工学院(MIT)的研究人员开发了一种新型强化学习训练算法,该算法通过战略性地选择最佳训练任务,使AI智能体能够更高效地完成一组相关任务。这种算法在模拟任务中的表现比标准方法提高了5到50倍,显著降低了训练成本。

从机器人到医学再到政治学,各领域都在尝试训练AI系统做出有意义的决策。例如,利用AI系统智能控制拥堵城市的交通,不仅可以帮助驾驶员更快到达目的地,还能提升安全性或可持续性。然而,教AI系统做出良好决策绝非易事。

支撑这些AI决策系统的强化学习模型在面对任务中的细微变化时,往往仍然会失败。以交通为例,当模型面对具有不同车速限制、车道数量或交通模式的路口时,可能难以有效控制。

为提升强化学习模型在具有多样性的复杂任务中的可靠性,MIT研究人员引入了一种更高效的训练算法。该算法通过战略性选择最佳训练任务,使AI智能体能够高效完成一组相关任务集合中的所有任务。以交通信号控制为例,每个任务可以视为一个路口,而任务空间则包含整个城市中的所有路口。

通过专注于对算法整体效果贡献最大的少数路口,该方法在提高性能的同时,显著降低了训练成本。研究人员发现,在一系列模拟任务中,该技术比标准方法高效5到50倍。这种效率提升使算法能够更快地学习到更优的解决方案,最终改善AI智能体的表现。

“通过一种非常简单的算法,我们看到了惊人的性能提升。这种不复杂的算法更容易被社区接受,因为它的实现和理解都更简单,”论文资深作者、MIT土木与环境工程系(CEE)和数据系统与社会研究所(IDSS)Thomas D. and Virginia W. Cabot职业发展副教授、信息与决策系统实验室(LIDS)成员Cathy Wu说。

该论文的主要作者是CEE研究生Jung-Hoon Cho,参与作者包括电气工程与计算机科学系(EECS)研究生Vindula Jayawardana,以及IDSS研究生Sirui Li。此研究将在神经信息处理系统会议NeurIPS上发表。

寻找折中之道

在为城市多个路口的交通信号灯设计控制算法时,工程师通常会在两种主要方法中进行选择:要么为每个路口单独训练一个算法,仅使用该路口的数据;要么使用所有路口的数据训练一个更大的算法,然后将其应用于每个路口。

然而,这两种方法各有缺陷。为每个任务(如一个特定路口)单独训练算法需要耗费大量时间、数据和计算资源;而为所有任务训练一个通用算法往往会导致表现不佳。

Cathy Wu及其合作者试图在这两种方法之间找到平衡点。在他们的方法中,研究团队选择了一部分任务,为每个任务独立训练一个算法。关键在于,他们会策略性地选择最有可能提升整体任务表现的单个任务。

他们借助强化学习领域的一个常用技巧——零样本迁移学习(zero-shot transfer learning)。这种方法将已训练好的模型直接应用于一个新的任务,而无需进一步训练。通过迁移学习,模型往往在新任务上表现出色,尤其是与原任务相似的邻近任务。

“我们知道理想情况下应该对所有任务进行训练,但我们好奇是否可以仅对一部分任务进行训练,并将结果应用于所有任务,同时仍能看到性能的提升。”Wu说道。

为确定哪些任务最值得选择以最大化整体表现,研究人员开发了一种名为基于模型的迁移学习(Model-Based Transfer Learning, MBTL)的算法。

MBTL算法由两部分组成:首先,它会模拟每个算法在单个任务上的独立训练表现。其次,它会模拟将每个算法迁移到其他任务时性能的下降情况,即所谓的泛化性能(generalization performance)。

通过明确建模泛化性能,MBTL可以估算出对新任务进行训练的价值。MBTL按顺序进行操作,优先选择带来最高性能增益的任务进行训练,然后依次选择能够提供最大边际性能提升的任务。

由于MBTL仅专注于最有潜力的任务,这种方法可以显著提高训练过程的效率。

降低训练成本

当研究人员将这一技术应用于模拟任务时,包括控制交通信号、管理实时速度建议以及执行多个经典控制任务,该方法的效率比其他方法高出5到50倍。这意味着,他们可以使用更少的数据量达到相同的解决方案。例如,在效率提高50倍的情况下,MBTL算法只需针对2个任务进行训练,就能达到标准方法需要100个任务数据才能实现的同等性能。

“从两种主要方法的角度来看,这意味着其他98个任务的数据并非必要,或者对所有100个任务进行训练会让算法感到混淆,从而导致性能比我们的方法更差。”Wu说。

使用MBTL,即使只增加少量额外的训练时间,也可能显著提高性能。

未来,研究人员计划设计能够扩展到更复杂问题的MBTL算法,例如高维任务空间。他们还希望将这一方法应用于现实世界的问题,尤其是在下一代移动系统中。

该研究部分由美国国家科学基金会职业奖(National Science Foundation CAREER Award)、冠廷教育基金会博士奖学金计划(Kwanjeong Educational Foundation PhD Scholarship Program)以及亚马逊机器人博士奖学金(AmazonRobotics PhD Fellowship)资助。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号