港科大(广州)发布大模型交通信号灯控制框架LLMLight
港科大(广州)发布大模型交通信号灯控制框架LLMLight
交通信号控制(TSC)是城市交通管理的重要组成部分,旨在优化道路网络效率并减少拥堵。传统方法主要基于交通工程和强化学习(RL),通常在不同交通场景的泛化性方面表现出局限性,并且缺乏可解释性。
受此启发,港科大广州刘浩教授团队在2023年12月开源了 LLMLight框架,用于结合大型语言模型 (LLM) 作为 TSC 的决策智能体。该框架首先向智能体提供详细的实时交通状况,并结合先验知识构成提示。利用LLM卓越的泛化能力,LLMLight 采用符合人类直觉的推理和决策过程来实现有效的交通控制。该团队还于2024年2月开源了交通信号灯控制垂类大模型LightGPT。其通过学习的交通流量模式和控制策略,经济且高效地增强了 LLMLight 框架的控制性能。
现有TSC研究的局限性
现有的 TSC 研究主要分为两类:基于交通工程和强化学习(RL)的方法。交通工程方法主要侧重于制定有效的启发式算法,根据车道级交通状况属性,动态调整交通信号灯配置。然而,这些方法的设计严重依赖人力及专业领域知识。之后多数研究便基于深度强化学习技术来应对这一任务,并在各种交通场景中都表现出了卓越的性能。然而,基于强化学习的方法也存在明显缺点。首先,由于他们的训练数据仅涵盖有限的交通情况,致使其表现出局限的泛化能力,特别是在转移到更大规模的交通网络或在不常见的路况下(例如,极端高流量的情况)。此外,由于深度神经网络(DNN)的黑盒特性,基于深度强化学习的方法缺乏可解释性,这使得我们很难理解其在某交通状况下控制行为的背后逻辑。
LLM在TSC中的潜力与挑战
最近出现的大型语言模型 (LLM) 凭借其卓越的零样本学习和泛化能力,它以模仿近似人类的推理过程来解决复杂任务,彻底改变了多个领域。例如在交通控制任务上,PromptGAT 使用 LLM 生成人类知识,以此来帮助 DNN 模型理解 TSC 任务中的长尾场景(例如极端天气),旨在弥合现实世界与模拟之间的差距。然而,虽然现有的研究已经开始探索利用 LLM 作为辅助工具来增强决策,但直接利用LLM作为 TSC 智能体进行类人决策的潜力还尚未探寻。具体而言,其有两个重要挑战:
- LLM通常在大规模自然语言语料库上进行预训练,但很少包含非文本的流量数据(例如传感器读数和 GPS 轨迹)。尽管它们具有跨多种任务和领域的泛化能力,但实时交通数据和自然语言之间存在固有差距。第一个挑战在于如何使LLM能够理解实时交通动态并与交通环境做有效交互。
- 如何为信号灯控制任务选择和开发专有垂类LLM则是另一个重大挑战。首先,通才大模型往往缺乏特定领域的知识,容易出现专业领域的幻觉问题。尽管 GPT-4 等最先进的 LLM 表现出了优异的泛化能力,但它们的闭源性质和高昂成本并不利于投入到实时 TSC 任务及其后续优化中。因此,训练专门为 TSC 任务量身定制的LLM成为了当下更优的选择。
LLMLight框架的核心创新
为了应对这些挑战,本文提出了LLMLight框架,其旨在整合大语言模型作为智能体,实现交通信号灯控制。首先本研究将 TSC 视为部分可观察的马尔可夫博弈(Partially Observable Markov Game),其中每个 LLM 智能体管理一个十字路口的交通灯。在每个信号切换时间步上,智能体都会收集目标路口的交通状况,并将其转换为人类可读的文本作为实时观察。此外,作者还结合了信息量丰富的任务描述及一条与控制策略有关的常识知识,以帮助LLM理解交通管理任务。交通路口的实时状态、任务描述与控制动作空间结合,形成了指导智能体决策的知识提示。最后,LLM控制智能体利用思想链 (CoT) 推理来确定下一个时间片的最佳交通信号灯配置。
此外,本研究还构建了一个交通信号灯控制垂类大模型 LightGPT 来增强 LLMLight 框架。一方面,本文提出模仿学习微调(Imitation Fine-tuning),让学生 LLM 学习 GPT-4 产生的高质量决策和推理轨迹。另一方面,本文引入了一个由评论家模型指导的策略优化(Critic-gudied Policy Refinement)过程,使其评估和改进LLM智能体的控制。优化后的 LightGPT 可以产生比 GPT-4 更具成本效益且更有效的控制策略,并在不同流量场景中展现出卓越的泛化能力。
LLMLight框架的主要贡献
- 本文率先利用先进的LLM作为控制智能体,赋予其类人的决策能力,使交通信号灯控制任务具有可解释性。这是首个利用LLM作为TSC决策智能体的研究工作。
- 本文构建了LLMLight框架,通过知识化的提示模版有效指导LLM作出决策,以切换到最优的信号灯配置。
- 本文构建了LightGPT,一专门针对TSC任务优化的LLM,以经济且有效的方式,显著增强了LLMLight框架的控制策略。
- 在九个交通流数据集上的实验证明,LLMLight框架具有卓越的有效性、泛化能力和可解释性。此外,本研究也表明了将LLM整合到智能交通系统中的潜在可能性。
LLMLight的工作流
LLMLight的工作流包括:(1)交通状态观测特征构建:收集交通路口的交通状态观测;(2)常识知识增强的智能体提示构建:组成一则整合了常识知识的提示,用于指导LLM推理出下一时间片最优的交通信号灯配置;(3)智能体的分析推理及决策:LLM使用构建的提示进行分析推理决策过程,随后做出决策。其流程如下图所示:
- 任务定义:本研究将交通信号控制定义为一个部分可观察的马尔可夫博弈。基于交叉口实时交通状况的观察、交通场景描述 、任务描述 、常识知识 以及信号灯控制动作空间 ,以LLM智能体的策略 控制目标交通路口的信号灯。LLM的输出为分析推理轨迹 与调节路口信号灯的控制动作 。其目标为优化长期内交通路口的通行效率。其可形式地表示为:
- 交通状态观测特征构建:本研究收集了两种在现实场景中可以简单获取到的观测特征:1)不同车道上排队车的数量;2)不同车道上,还未到达路口车的数量。
- 常识知识增强的智能体提示构建:除了观测特征外,本研究还向LLM提供了在处理交通信号控制任务中其他必不可少的信息。包括交通场景描述 、任务描述 和控制动作空间 。这使得LLM能够全面了解任务,从而做出合理的控制决策。此外,本研究还整合了常识知识 ,以缓解通用型LLM在交通控制领域知识上的局限性。具体来说,这些知识规定了智能体需要优先考虑排队长度较长的车道,而减弱对距离路口较远车辆的注意力。形式化地,本研究将智能体提示表示为 。提示符模板的简要示意如下图所示。
- 智能体的分析推理及决策:之后,本研究利用上述提示LLM进行零样本(Zero-Shot)推理。其决策过程包含两个关键步骤:分析推理及决策。首先,LLM会对所给任务及常识知识进行理解,并评估各车道的当前交通状况。随后,LLM选择合适的信号灯配置,以允许拥堵最严重的车道通行,从而优化交通流量,确保车辆的顺畅通过。通过这种方式,LLMLight不仅可以制定有效的控制策略,还可以为每个决策提供其背后推理逻辑。这会极大有助于建立更具解释性和透明性的交通控制系统。形式化地,我们将推理和执行行动表示为 。LLM主干的决策过程示例如下图所示。
LightGPT的训练方法
本文还提出了一种训练方法,以专门优化用于交通信号灯控制的LLM,LightGPT。它主要包括三个阶段:(1)推理轨迹的收集和筛选:首先,本研究收集GPT-4的思维链推理轨迹进行模仿学习微调,之后筛选出与长期优化目标最相符的轨迹以确保数据质量;(2)模仿学习微调:利用GPT-4的决策及其推理轨迹对学生LLM进行训练;(3) 评论家模型指导的策略优化:依据评论家模型的反馈进行微调,进一步改善LLM的决策过程。下图展示了其训练流程。
实验结果
本研究使用了五个真实世界流量数据集,其中包括了来自济南和杭州的数据。此外,还利用了两个在纽约更大的路网下采集的数据,以测试不同方法的在大型路网下的可扩展性。为了测试在长尾情况下的泛化性,他们还合成了两个额外的数据集,模拟了极端拥堵的路况。本研究使用了平均旅行时间(ATT),路口平均队列长度(AQL),以及路口平均等待时间(AWT)作为评价指标。
实验结果表明,配备了 LightGPT 的LLMLight 在所有基准测试中始终达到了最先进(SOTA)或与经典方法同等的性能水平。尽管Advanced-CoLight(当前最先进的强化学习方法)在杭州数据集上表现优于 LLMLight(LightGPT),但它的决策需要依赖与邻近路口之间的通信。值得一提的是,LLMLight(LightGPT)仅利用当前路口的观测特征就展现出强有竞争的结果,表明了其决策显著的有效性。
对于由通用型大模型驱动的LLMLight,我们观察到GPT-4表现最为出色,并展示出与最先进强化学习方法相当的效果。同时Llama2-70B和13B分别获得第二和第三名,这表明LLM在交通信号控制任务中也遵循了规模化定律(scaling law)。令人惊讶的是,ChatGPT-3.5的表现最不理想。
本研究首先测试了不同方法的可迁移性。标有“-T”的模型是在不同的道路网络上预训练得到的(例如,我们使用在济南预训练的模型在杭州数据集上评估可迁移性)。反之则在相同的数据集上进行训练和测试。本研究观察到强化学习方法在迁移后性能明显下降,尤其在济南 1 和杭州 1 数据集中表现尤为明显。相反,LLMLight(LightGPT)始终表现出优越的性能,并在所有数据集上展现出优异的可迁移性。
之后本研究分析了不同方法的可扩展性,测试它们在应用于规模更大的路网时的性能。可以观察到,大多数强化学习方法发生了显著性能下降,甚至表现出比启发式方法Maxpressure更差的性能。虽然最先进的强化学习方法在平均旅行时间(ATT)上与LLMLight(LightGPT)相当,但值得注意的是,它们的决策会导致最高延长57.80%的等待时间(AWT)。这一结果表明,强化学习方法侧重于优化排队车辆的总数,但可能会以牺牲少部分队列的等待时间为代价。在实际场景中,等待时间的重要性不容忽视。相比之下,LLMLight可以同时确保最短的旅行时间和等待时间,体现了其拓展到规模更大的路网时的优良的可扩展性和适用性。
最后本研究为了探讨了在极端拥堵情况下不同模型的性能,在济南和杭州的路网上生成了两个合成交通流数据集,其流量相比原始数据集增加了约四倍。与可扩展性实验类似,强化学习方法也表现出显著的性能下降,表现出比Maxpressure更差的结果。相比之下,LLMLight(LightGPT)始终表现出卓越的性能,体现了其在更加繁重的交通条件下的稳健性和实用性。
为了评估LLMLight的可解释性,作者在杭州数据集上进行了一个案例模拟。在这个模拟场景中,北部路段出现了严重拥堵,表现为排队的车辆出现积压。下图详细展示了LightGPT在此路况下的推理分析过程。它以理解任务开始,并分析目标交叉口的交通情况以进行决策推理。随后,它明确信号灯NLSL为最优的选择。与强化学习方法不同,LLMLight不仅在制定有效的控制策略方面表现出色,而且还能为每个决策提供其背后的详细解释。这一独特特征增强了LLMLight的透明度和可解释性,有助于我们更全面地理解其决策行为。
总结与展望
LLMLight是交通信号控制的全新范式。它旨在通过指导LLM对当前交通状况进行类人化的拥堵情况分析,使智能体可以动态地选择最佳的控制决策,从而提高路口的交通效率。此外,作者还开发了一种针对交通信号控制的专用LLM,即LightGPT。通过对九个交通流数据集进行的大量实验,LLMLight框架相比传统方法表现出显著的改进,凸显出其在不同交通场景下的卓越效果和泛化能力。
LLMLight的下一步研究将着眼于融合多模态信息及群体协同。多模态大模型可以直接从端到端地提取路口的交通拥堵信息,使模型能够自行探索可用的视觉特征,进而自我优化出更优的决策。而群体协同则能够实现临近路口、车辆和智能体之间的信息交换,从而获得全局信息,最终达到优化整体路网的交通效率的目的。
论文链接:
https://arxiv.org/abs/2312.16044
代码链接:
https://github.com/usail-hkust/LLMTSCS
主页链接:
https://gungnir2099.github.io/LLMLight-Page/
Demo链接:
https://gungnir2099.github.io/LLMTSCS_Demo/
模型权重链接:
https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT