LC-LLM:基于大语言模型的可解释变道意图和轨迹预测
LC-LLM:基于大语言模型的可解释变道意图和轨迹预测
自动驾驶车辆需要准确预测周围车辆的变道意图和未来轨迹,以确保安全驾驶。香港科技大学广州分校的研究团队提出了一种基于大语言模型(LLM)的可解释变道预测模型LC-LLM,通过将变道预测任务重新定义为语言建模问题,利用LLM的强大推理能力来提高预测精度和可解释性。
研究背景与挑战
为了确保在动态环境中安全驾驶,自动驾驶车辆应具有提前准确预测周围车辆的换道意图并预测其未来轨迹的能力。现有的运动预测方法在长期预测精度和可解释性方面存在改进空间。因此,研究团队提出了LC-LLM模型,以解决这些挑战。
相关研究综述
变道的意图预测是自动驾驶和ADAS领域的关键组成部分。该领域的研究侧重于在执行机动之前准确预测车辆的变道意图,从而提高道路安全和交通流量。已经研究了各种方法,包括机器学习技术、概率建模和深度学习。Mandalia[17]首先应用SVM,结合加速度、转向角、距离等特征来识别换道机动。Lyu[18]基于SVM-递归特征消除(SVM-RFE)模型预测换道意图。He[1]设计了一种动态贝叶斯网络(DBN),旨在区分车辆跟随和变道机动。Hong[19]和Mozaffari[2]取得了进一步的进展,他们利用卷积神经网络(CNN)作为特征提取器来融合复杂的驾驶环境背景,并有效地学习驾驶行为。Zyner[20][21]分别采用LSTM和RNN作为序列分类器,用于预测车辆的驾驶意图。Xin[22]实现了dual block-LSTM架构,其中第一个LSTM块处理顺序轨迹数据,将驾驶员意图识别为中间指示器。Izquierdo[23]使用混合CNN-LSTM模型来捕获局部和全局上下文特征以及时间信息,预测车辆变道意图。Gao[3]提出了一种dual-Transformer模型,包括变道意图预测模型和轨迹预测模型。尽管这些方法已被证明在检测已经开始的变道机动方面具有良好的性能,但需要提高提前预测驾驶意图的能力。
自主驾驶轨迹预测的研究是一个关键的研究领域,旨在通过预测汽车、自行车和行人等周围实体的未来轨迹来提高自动驾驶车辆的安全性和效率。早期的方法使用BEV图像作为输入,并应用CNN框架来处理用于轨迹预测的渲染场景[24][25]。此外,一些研究采用LSTM网络,利用一个LSTM作为编码器来捕获历史轨迹中的特征,而另一个LSTM作为解码器来预测未来的轨迹[26][27][22]。更近期的工作表征场景为向量化数据(如点和多段线),并用GNN[28][29]或Transformers[4][3][30]对其进行处理,有效地模拟交通参与者与环境之间的交互。在[29]中,Gao提出了VectorNet,用GNN从矢量化高清(HD)地图中提取特征,从而避免有损渲染和计算密集的CNN编码。在[4]中,Shi提出了Motion Transformer框架,将运动预测建模为全局意图定位和局部运动细化的联合优化。最近的一项研究[5]将连续轨迹表示为离散运动tokens序列,将多智体运动预测框架化为语言建模任务。虽然这些基于深度学习的方法实现了竞争性结果,但它们的预测通常缺乏可解释性,这不利于开发更安全和更透明的自动驾驶系统。
LC-LLM模型架构与创新点
LC-LLM模型的核心创新在于将变道预测任务重新定义为一个语言建模问题,利用自然语言处理异构驾驶场景信息。模型采用监督微调技术,定制专门用于车道变化预测任务的LLM,使其能够理解复杂的交互信息,从而提高长期预测的准确性。此外,模型在推理阶段融合解释性要求,不仅预测换道意图和轨迹,还提供预测解释,增强可解释性。
如图描述了一个典型的变道场景,其中目标车辆用绿色表示,周围车辆用蓝色表示。目标是预测目标车辆在未来t个时间步长处的轨迹位置,并确定其在同一时间窗口内的变道意图,如橙色线所示。
如图清楚地描述了LC-LLM的整个流水线。预测意图和轨迹的任务重新概念化为一个语言建模问题。为此,用自然语言作为输入LLM的提示来表达观察,并利用监督微调技术来调整LLM以适应此特定任务。在推理阶段,将解释性要求合并到提示中。因此,微调模型LC-LLM不仅预测换道意图和未来轨迹,还为预测提供解释,从而增强了可解释性。
提示设计与微调策略
LLM以自然语言的形式接收输入,因此,用自然语言描述当前观察结果的有效提示是至关重要的。一些研究试图通过巧妙的提示设计来利用LLM的深度推理能力[9],[33]。在这些先前努力的基础上,本文精心编制了更清晰、更智能和结构更好的提示。如图提供了输入提示的示例。
如图示例所示,输入提示由上文本块中显示的系统消息和下文本块中呈现的用户消息组成。系统消息在各种驾驶场景中保持一致性,它描述了LLM的指定角色,提供了坐标系细节,并概述了LLM输出的信息和格式。本文LLM的指定角色是集成在自动驾驶系统中的预测模型。每个驾驶场景中的坐标系是车辆坐标系,以目标车辆的当前位置为中心。预期输出包括在未来4秒时间范围内对变道意图和轨迹点的预测。
而用户消息提供特定于当前帧观察的描述,因此随每个驾驶场景的变化而变化。它包括关于地图、目标车辆的状态、目标车辆与其周围车辆之间的空间关系信息,以及构造的思维链(CoT)[34]语句。提示中的地图信息主要表示场景中车道数,并指示目标车辆是位于最左侧、中间、还是最右侧的车道。与目标车辆状态相关的提示是通过详细描述目标车辆在过去2秒内的历史轨迹、其当前速度和车辆类型来生成的。考虑到大多数车辆在变道前4秒没有较大的横向位移,该模型主要依赖目标车辆和周围车辆之间的相互作用信息来提前预测变道意图。因此,理解与周围车辆相关的信息对于准确预测目标车辆的变道意图至关重要。
将目标车辆周围八个方向上最近车辆的信息表示作为周围车辆提示。这些方向包括前、左前、右前、左、右、后、左后和右后。每个方向上的周围车辆信息包含诸如车辆类型、当前速度和与目标车辆的相对距离等细节。这一全面的周围车辆信息是预测模型的关键提示,能够彻底分析影响目标车辆变道意图的上下文交互。
最近,CoT提示在执行更复杂的推理任务[35][34][36]方面表现出了非凡的能力。从零样本CoT[34]和最小到最大提示中获得灵感,将任务细分为三个子问题来制定CoT提示。这些子问题在推理过程中充当LLM的指导,促进最终预测问题的后续解决。上述提示向LLM提供了大量信息。然而,LLM可能无法彻底理解该信息,或者可能会诉诸简单的问题解决策略。因此,CoT提示的结合被认为是必要的,指示LLM对目标车辆信息、周围车辆的潜在意图以及目标车辆与其周围环境之间的空间关系和相互作用等方面进行深思熟虑。
提示的最后一部分详细说明了最终答案的内容和格式。模型的目标是准确预测换道意图和轨迹。因此,最终答案应该包含两个任务:意图预测和轨迹预测。高级意图预测实质上有助于轨迹预测[22][3]。因此,根据自回归语言模型特点制定最终答案,首先顺序输出意图,然后是相应的未来轨迹点。
本文用开源基础语言模型Llama-2-7b-chat[8]作为预训练LLM。为了实现参数有效微调(PEFT),采用LoRA[37]策略,该策略冻结预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每个层。此外,用监督微调技术为特定预测任务定制LLM。工作中使用的原始数据集源自高维数据集[38],该数据集捕获德国公路上人类自然的车辆轨迹。在为Llama-2提供的微调指令之后,每个数据样本被格式化为包括输入提示和相应的答案,由特殊token分隔。该格式如图所示。每个样本的答案都来自从高密度数据集获得的真值,包括编程自动标注的未来轨迹和意图。
总之,用自然语言处理高维原始数据集,将每个样本格式化为Llama格式,然后将其输入LLM。最后,将LLM的输出{I,T}与对应的真值标签{I*,T*}对齐来微调LLM。在微调期间,在输入提示中屏蔽tokens的丢失,反向传播(BP)仅聚焦于包含答案的tokens,与Llama-2的微调方法保持一致。通过采用这种方法,微调模型LC-LLM可以预测人类驾驶行为,包括变道意图和未来轨迹。这种能力对于确保自动驾驶系统内自车的安全至关重要。
当代自动驾驶预测模型的一个普遍局限性在于其有限的可解释性。这是由于这些模型通过黑盒子神经网络生成关于目标车辆未来行为或轨迹的预测,在其预测结果背后提供的解释很少。本文将解释性要求合并到推理阶段的输入提示中来解决这一限制,其中微调模型的权重是固定的。如图说明了推理阶段中这些输入提示的示例。
得益于LLMs的自解释[12][13]能力,微调模型LC-LLM预测换道意图和未来轨迹,并在推理阶段为其预测结果提供了解释,从而增强了预测结果的可解释性。该方法有助于更透明和可理解的预测过程,这对于自动驾驶系统的实际应用至关重要。
LC-LLM模型的可解释性的一些可视化示例如图所示。