ICLR 2025最新研究:蒸馏方法打造更强的单目深度估计器
ICLR 2025最新研究:蒸馏方法打造更强的单目深度估计器
在ICLR 2025上发表的一篇论文中,研究人员提出了一种新的单目深度估计(MDE)蒸馏方法,通过改进深度归一化策略和采用多教师蒸馏技术,显著提升了模型的泛化能力。这一突破性研究为自动驾驶、机器人导航和三维重建等领域带来了新的发展机遇。
单目深度估计(MDE)是计算机视觉领域的一个重要研究方向,广泛应用于自动驾驶、机器人导航和三维重建等领域。然而,传统的深度估计方法在处理复杂场景时往往面临泛化能力不足的问题。为了解决这一难题,研究者们提出了基于蒸馏的解决方案。
深度归一化策略
深度归一化是深度估计中的关键步骤,它直接影响模型的预测精度。研究者们提出了四种主要的深度归一化策略:
全局归一化(Global Normalization):这种方法基于整个深度图的统计信息进行归一化,虽然简单且全局一致,但可能会导致局部细节的丢失。
混合归一化(Hybrid Normalization):结合全局和局部归一化,将深度图像分割成多个区域,每个区域独立进行归一化处理。这种策略能更好地保留局部细节,同时保持全局结构的一致性。
局部归一化(Local Normalization):仅在小的局部区域内进行归一化处理,每个像素都在其局部上下文中进行归一化,从而保留细粒度的深度信息。
无归一化(No Normalization):直接使用原始深度值,不进行任何归一化处理。这种方法虽然直接,但在不同尺度和偏移的深度预测中可能存在问题。
图示:不同归一化策略的可视化比较。红点表示归一化区域内的像素。
蒸馏管道
研究者们设计了一个创新的蒸馏管道,结合了交叉上下文蒸馏和多教师蒸馏两种方法。
交叉上下文蒸馏
为了解决局部细节保持和全局深度一致性之间的平衡问题,研究者们提出了交叉上下文蒸馏方法,包含两种关键策略:
共享上下文蒸馏:教师模型和学生模型在相同的局部裁剪图像区域作为输入,学生模型可以直接从教师模型中学习,提高局部区域的预测能力。
局部-全局蒸馏:教师模型对局部裁剪区域进行预测,学生模型对整个图像区域进行预测,之后在重叠区域计算损失。
教师模型的输入方式对伪标签生成的影响。
多教师蒸馏
多教师蒸馏的核心目标是通过利用多个教师模型的知识来增强学生模型的深度估计能力。具体方法包括:
多个教师模型:使用不同架构或优化策略的教师模型(如Genpercept和DepthAnything v2)生成多样化的伪标签。
随机选择教师模型:每次训练迭代时随机选择一个教师模型生成伪标签,减少单一教师模型带来的偏差。
提高学生模型的多样性:通过学习不同教师模型的知识,学生模型能够学习到更丰富和通用的深度表示。
实验结果与展望
实验结果表明,混合归一化策略在局部-全局蒸馏中表现最佳,而全局归一化更适合共享上下文蒸馏。无归一化方法的表现相对较弱。研究者们还发现,广泛使用的SSI归一化会放大教师生成的伪标签中的噪声,影响局部深度精度。通过跨上下文蒸馏和多教师框架的结合,模型在多个基准测试中达到了最先进的性能。
未来的研究方向包括提高无标签数据蒸馏的效率,进一步优化模型的泛化能力。