突破深度学习难题 | 基于Transformer的脉冲神经网络实现深度估计新突破
突破深度学习难题 | 基于Transformer的脉冲神经网络实现深度估计新突破
在深度学习领域,脉冲神经网络(SNN)因其独特的生物启发特性而备受关注。然而,SNN在处理脉冲数据时面临着性能瓶颈。本文提出了一种基于Transformer的SNN网络,通过跨模态知识蒸馏技术,显著提升了深度估计的准确性和效率。
背景与挑战
深度学习在自动驾驶导航和机器人技术等领域发挥着重要作用,但如何从事件相机数据中获取准确的深度读数仍然是一个巨大挑战。事件相机与传统数码相机不同,它们持续捕捉数据并生成异步的二进制脉冲,这些脉冲编码了时间、位置和光强信息。然而,事件相机的独特采样机制使得基于标准图像的算法不适用于处理脉冲数据。
创新解决方案
为了解决这一难题,研究者提出了一种基于Transformer的脉冲神经网络(SNN)架构。具体来说,他们设计了一个纯粹由脉冲驱动的Transformer网络,用于从脉冲相机数据中估计深度。为了克服SNN的性能限制,研究者引入了一种新颖的单阶段跨模态知识转移框架,利用人工神经网络(ANN)的大型视觉基础模型(DINOv2)的知识来增强SNN的性能。
关键技术
脉冲驱动的Transformer网络:研究者设计了一个纯脉冲驱动的Transformer网络,通过脉冲自注意力机制和脉冲MLP块,避免了传统的浮点数计算,遵循脉冲原理进行操作。
跨模态知识蒸馏:研究者利用预训练的大型视觉基础模型DINOv2作为教师模型,通过领域损失和语义损失,将知识转移到SNN上,使其能够在有限数据集上进行高效训练。
融合深度估计头:与传统的全卷积网络不同,Transformer网络保持一致的维度表示。研究者设计了一个融合深度估计头,能够利用每个Transformer阶段的特征,优化深度估计的有效性。
实验结果
研究者在合成数据集(DENSE)和真实数据集(DSEC)上进行了实验评估。结果显示,与现有模型相比,提出的方法在绝对相对误差和平方相对误差上都有显著提高(分别比基准模型Spike-T提高了49%和39.77%)。此外,所提出的模型还显示出降低了功耗,这对于实际应用来说是一个关键因素。
未来展望
未来的研究将关注在真实数据集上的进一步验证和部署,以及在专用SNN处理器上的应用,从而可能拓宽尖峰Transformer在实际场景中的应用范围。
图1:知识蒸馏过程示意图
图2:在低光照环境下的可视化结果
图3:有和无知识蒸馏的结果可视化对比