科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
近日,清华大学硕士生徐冬阳及其团队研发了一款名为LVAFusion的自动驾驶模块,该模块通过引入人类驾驶员的注意力机制,实现了更接近人类认知的场景理解能力。这一创新不仅提高了自动驾驶系统的安全性,也为未来智能驾驶技术的发展开辟了新路径。
自动驾驶技术的发展正朝着更加智能化、人性化的方向迈进。近日,清华大学硕士生徐冬阳及其团队研发了一款名为LVAFusion的自动驾驶模块,该模块通过引入人类驾驶员的注意力机制,实现了更接近人类认知的场景理解能力。这一创新不仅提高了自动驾驶系统的安全性,也为未来智能驾驶技术的发展开辟了新路径。
图 | 徐冬阳(来源:徐冬阳)
创新性的注意力机制
自动驾驶车辆在道路上行驶时,需要具备学习优秀人类驾驶员的能力。人类驾驶员在面对复杂场景时,能够迅速定位关键区域,做出快速反应。徐冬阳团队首次将人类驾驶员的注意力机制引入自动驾驶系统,通过预测驾驶员视觉注视区域,为下游决策任务提供更具细粒度的感知特征。
这一创新性设计不仅提高了自动驾驶系统的安全性,还让场景理解过程更加接近人类认知,增强了系统的可解释性。通过预测当前上下文中的驾驶员注意区域,团队将其作为一个掩码来调整原始图像的权重,使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效定位和预测潜在风险因素的能力。
应用前景广阔
LVAFusion模块具有广泛的应用前景。首先,该模块可以应用于配备激光雷达的车辆上,提高多模态大模型的感知融合能力。其次,该模型可以与现有的多模态大模型结合,实现自动调节和持续学习。例如,驾驶员注意力机制可以实时输出,让乘客实时观察当前大模型所认为权重较大的板块。如果乘客认为不合理,可以通过语音告诉端到端模型,从而实现自动调节,进而实现持续学习和不断优化。
端到端自动驾驶的优势与挑战
端到端自动驾驶是指使用深度学习模型直接从原始输入数据(如摄像头图像、激光雷达点云)到控制命令(如方向盘转角、油门和刹车)的转换过程。这种方法试图简化传统的多模块自动驾驶系统,将整个驾驶任务看作是一个从感知到行为的映射问题。
端到端学习的关键优势在于它可以降低系统的复杂性,并有潜力提高泛化能力,因为模型可以被训练来直接处理多种不同的驾驶情况。并且,多模态端到端自动驾驶通过整合来自摄像头、激光雷达和雷达等多种传感器的数据,有望提高系统对复杂环境的理解和反应能力,增强决策的准确性和鲁棒性,从而提升自动驾驶车辆的安全性和可靠性。
然而,端到端自动驾驶基于黑盒化的深度学习模型,因此如何提高模型的驾驶性能、以及提高模型的可解释性,是一个急需解决的问题和痛点。现有的大量方法都是端到端自动驾驶,徐冬阳和所在团队详细分析模型结构之后发现,此前人们并没有很好地利用多模态信息。摄像头具有丰富的语义信息,但是缺乏深度信息。激光雷达可以提供很好的距离信息。因此,二者具有很好的互补特性。
但是,现有端到端学习方法大部分采用骨干网络分别提取模态信息之后,在高维空间里面进行拼接,或采用Transformer针对多模态信息进行融合。其中,查询Query是随机初始化的,这个过程可能导致在采用注意力机制进行融合的过程中,无法利用埋藏在多模态特征中的先验知识。进而可能会导致跨多种模态的同一个关键对象的错位,最终导致模型学习的收敛速度变慢和次优。
未来研究方向
徐冬阳团队表示,未来将围绕以下几个方面开展深入研究:
1.深化多模态融合技术。继续探索和开发更加高效的算法,借此改进不同传感器数据之间的融合方式。比如,采用图网络针对不同模态进行匹配,而且尤其要关注在处理高动态和复杂环境下的交通场景。
2.增强驾驶员的注意力模型。进一步研究驾驶员注意力的模拟机制,探索如何更加精确地预测和模拟人类驾驶员的注意焦点,以及探究这些焦点对于驾驶决策的影响。
3.开展安全性和鲁棒性的验证。将现有模型部署到物理世界的小车中,通过更多的物理实验,验证模型在真实世界条件下的性能。从而将研究扩展到恶劣天气、夜间驾驶等更广泛、更多样的驾驶场景和环境条件之中,借此验证和提高系统的通用性和适应性。
4.开展人机交互的研究。探索如何将这一技术与人机交互更紧密地结合,例如通过提供给驾驶员更直观的风险警告和辅助决策支持,增强自动驾驶车辆与人类驾驶员之间的互动。
通过这些后续研究计划,徐冬阳希望不仅可以提升自动驾驶技术的性能,也能确保其更加贴近人类驾驶行为的理解,为实现更安全、更智能的自动驾驶技术打下基础。
参考资料:
1.https://arxiv.org/pdf/2403.12552.pdf
本文原文来自腾讯新闻