问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集

创作时间:
作者:
@小白创作中心

东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集

引用
CSDN
1.
https://blog.csdn.net/CV_Autobot/article/details/141876174

自动驾驶技术的发展需要大规模、高质量的数据集支持。近日,东京大学等机构的研究团队发布了CoVLA数据集,这是一个包含80小时真实驾驶视频的综合视觉-语言-动作数据集。该数据集采用自动化标注方法,为每个驾驶场景生成了详细的自然语言描述和精确的驾驶轨迹。基于此数据集,研究团队还开发了CoVLA-Agent模型,展示了在复杂驾驶场景中的出色表现。

研究背景与动机

自动驾驶,特别是在复杂和意外场景中的导航,要求具备复杂的推理和规划能力。虽然多模态大语言模型(MLLMs)在这方面提供了一个有前途的途径,但其应用主要局限于理解复杂的环境上下文或生成高层次的驾驶指令,只有少数研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈是缺乏包含视觉、语言和动作的大规模标注数据集。

CoVLA数据集的主要贡献

  1. 本文介绍了CoVLA数据集,这是一个大规模数据集,提供了多种驾驶场景的轨迹目标,以及详细的逐帧情境描述。
  2. 本文提出了一种可扩展的方法,通过传感器融合准确估计轨迹,并自动生成关键驾驶信息的逐帧文本描述。
  3. 本文开发了CoVLA-Agent,这是一种基于CoVLA数据集的新型VLA模型,用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力,为更可靠的自动驾驶铺平了道路。

数据集设计与方法

CoVLA数据集利用可扩展的自动化标注和描述生成方法,创建了一个包含10,000个真实驾驶场景、总计超过80小时视频的丰富数据集。每个30秒的场景都包含精确的驾驶路径和详细的自然语言描述,这些描述来源于同步的前置相机录像和车内传感器数据。

图1. CoVLA框架概述。本文开发了CoVLA数据集,这是一个用于自动驾驶的综合数据集,包含独特的10,000个视频片段、描述驾驶场景的逐帧语言描述以及未来的轨迹动作。本文还展示了CoVLA-Agent,这是一种基于VLM的路径规划模型,能够预测车辆的未来轨迹,并提供其行为和推理的文本描述。

表1. 含有语言和动作数据的驾驶数据集比较。

图2. 数据集生成 pipeline 概述。本文自动标注视频帧和传感器信号以生成轨迹和其他标签。此外,本文对视频帧应用自动描述生成,以生成行为和推理的描述。

图3. CoVLA数据集的示例帧。显示了估计的轨迹(绿色线)和由描述生成模型生成的描述。关键对象以蓝色粗体文本突出显示,而描述中的错误以红色粗体文本显示。

图4. 车辆速度和转向角的数据分布。红色条表示采样前的分布,而黄色条显示采样后的分布。请注意,为了清晰展示,(b)中使用了对数刻度。

CoVLA-Agent模型架构与训练

架构:如图5所示,CoVLA-Agent是一个为自动驾驶设计的VLA模型。本文使用预训练的Llama-2(7B)[52]作为语言模型,并使用CLIP ViT-L(224×224像素)[43]作为视觉编码器。此外,本文的模型将自车速度作为输入,通过多层感知器(MLP)转换为嵌入向量。CLIP ViT-L提取的视觉特征与速度嵌入和文本嵌入拼接在一起,然后输入到Llama-2模型中。对于轨迹预测,使用特殊的 tokens 作为轨迹查询。这些轨迹查询的输出经过MLP层处理,生成10个(x, y, z)坐标的序列,表示车辆相对于当前位置的预测轨迹,覆盖三秒的时间范围。

训练:基于这种架构,本文在两个任务上训练CoVLA-Agent,分别是交通场景描述生成和轨迹预测。对于交通场景描述生成,本文使用交叉熵损失作为损失函数;对于轨迹预测,本文采用均方误差损失。最终,训练的目标是最小化一个组合损失函数,其中两个损失被等权重对待。

图5. CoVLA-Agent的架构。

实验结果

图6. CoVLA-Agent在各种交通场景下的轨迹预测结果。红线表示在预测描述条件下的预测轨迹,蓝线表示在真实描述条件下的预测轨迹,绿线表示真实轨迹。

表2. 不同条件的定量比较。

表3. 平均ADE和FDE最大的前10个单词。这些单词对应的是从单帧中难以估计的运动。明确表示运动的单词以粗体显示。

总结

本文介绍了CoVLA数据集,这是一个用于自动驾驶的VLA模型的新型数据集。通过利用可扩展的自动化方法,本文构建了一个大规模、全面的数据集,并丰富了详细的语言标注。基于这个稳健的数据集,本文开发了CoVLA-Agent,这是一种先进的VLA自动驾驶模型。评估结果强调了该模型在生成连贯的语言和动作输出方面的强大能力。这些发现突显了VLA多模态模型的变革潜力,并为未来的自动驾驶研究创新铺平了道路。

引用

Arai H, Miwa K, Sasaki K, et al. CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving[J]. arXiv preprint arXiv:2408.10845, 2024.

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号