问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DriveVLM:视觉语言模型与自动驾驶的创新融合

创作时间:
作者:
@小白创作中心

DriveVLM:视觉语言模型与自动驾驶的创新融合

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/138933264

DriveVLM是清华大学和理想汽车联合研发的自动驾驶系统,通过融合视觉语言模型(VLM)来增强场景理解和规划能力。该系统采用独特的思维链(CoT)模块组合,并提出DriveVLM Dual混合架构,以克服VLM在空间推理和计算效率方面的局限性。

DriveVLM系统架构

DriveVLM系统的核心是利用视觉语言模型(VLM)来增强自动驾驶的场景理解和规划能力。系统通过思维链(CoT)机制将场景描述、场景分析和分层规划三个模块有机地结合在一起。具体来说,系统首先通过视觉Transformer编码器处理图像序列,然后通过基于注意力的提取器将视觉特征与大语言模型(LLM)对齐,最后由LLM执行CoT推理。

DriveVLM Dual混合架构

虽然VLM在识别长尾目标和理解复杂场景方面表现出色,但在空间推理和计算效率方面存在局限性。为了解决这些问题,研究团队提出了DriveVLM Dual混合架构。该架构将DriveVLM的优势与传统的3D感知和轨迹规划模块相结合,实现了空间推理能力和实时轨迹规划的双重优势。

SUP-AD数据集构建

为了训练和测试DriveVLM系统,研究团队构建了一个专门的场景理解规划数据集(SUP-AD)。数据集构建过程包括以下几个关键步骤:

  1. 长尾目标挖掘:通过基于CLIP的搜索引擎从大量驾驶数据中挖掘形状怪异的车辆、道路碎片和横穿道路的动物等长尾目标。

  2. 具有挑战性的场景挖掘:根据记录的驾驶动作变化来挖掘需要调整驾驶策略的复杂场景。

  3. 关键帧选择:在每个场景视频片段中选择一个关键帧,通常是在需要显著改变速度或方向之前的时刻。

  4. 场景标注:使用专门的视频标注工具进行场景描述、场景分析和规划的标注工作。每个注释都经过3个标注器的验证,以确保数据集的准确性和一致性。

实验结果

在nuScenes数据集和SUP-AD数据集上的大量实验表明,DriveV的性能在复杂和不可预测的驾驶条件下超越了现有方法。特别是在处理长尾目标和复杂场景时,DriveVLM Dual展现出了显著的优势。

总结

DriveVLM系统通过融合视觉语言模型和传统自动驾驶技术,为解决城市环境中复杂的驾驶场景提供了新的思路。其提出的DriveVLM Dual混合架构和专门构建的SUP-AD数据集,为自动驾驶技术的发展开辟了新的方向。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号