顶刊TPAMI 2024!Uni-AdaFocus:通用的高效视频理解框架
顶刊TPAMI 2024!Uni-AdaFocus:通用的高效视频理解框架
Uni-AdaFocus是一个通用的高效视频理解框架,通过降低时间、空间和样本维度的冗余性,实现了视频理解的加速和准确性提升。该框架被IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用,其关键创新在于统一建模了时空动态计算,能够自适应地关注视频中的关键帧和关键区域。
研究背景和动机
视频理解相较于图像理解具有更广泛的分布范围和应用场景。例如,YouTube每分钟就有超过300小时的视频上传,超过82%的消费互联网流量由在线视频组成。自动识别这些海量视频中的人类行为、交互、事件等内容,对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等应用具有重要意义。同时,视频理解技术在具身智能、自动驾驶、机器人等物理世界场景中也有广泛应用。
然而,使用深度神经网络处理视频通常会带来巨大的计算开销。以ResNet-50为例,将其应用于视频理解会使运算量扩大8-75倍。现有工作大多关注于时间维度的冗余性,而忽略了空间维度的冗余性。Uni-AdaFocus框架通过统一建模时间、空间和样本维度的冗余性,实现了视频理解的高效处理。
模型设计
Uni-AdaFocus框架的核心设计如下:
全局编码器:使用轻量化的特征提取网络(如MobileNet-V2)对均匀采样的视频帧进行粗略处理,获得视频整体的时空分布信息。
策略网络:基于全局特征自适应地采样关键帧和关键区域,得到值得关注的patches。patch的形状和大小根据视频帧的具体特性自适应地决定。
局部编码器:使用参数量大的大容量神经网络(如ResNet-50)仅处理策略网络选择出的patches,以实现计算资源的高效利用。
分类器:逐帧聚合全局特征和局部特征以得到最优的视频理解结果,同时通过早退机制实现对样本维度计算冗余性的建模。
实验结果
Uni-AdaFocus在多个学术数据集和应用场景中进行了验证,包括:
- 学术数据集:ActivityNet、FCVID、Mini-Kinetics、Something-Something V1&V2、Jester、Kinetics-400
- 应用场景:脑MRI诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测
实验结果显示,Uni-AdaFocus在长视频理解上比现有最好的同类baseline加速了5倍,在CPU/GPU实测速度和吞吐量上与理论结果高度一致。在某些特定情况下,Uni-AdaFocus可以实现多达23倍的(性能无损)推理加速或高达7.7%的准确性提升。
可视化结果
Uni-AdaFocus的可视化结果展示了其在不同场景下的表现。框架成功定位到任务相关视频帧中的任务相关区域,例如长笛、小狗、圣诞树、马术运动员等,并能自适应地调整patch的大小和形状以及任务相关视频帧的数目。
代码和资源
Uni-AdaFocus的代码和预训练模型已开源,项目链接为:https://github.com/LeapLabTHU/Uni-AdaFocus。此外,研究团队还提供了在自定义数据集上使用的完善教程。
参考资料
- 论文链接:https://arxiv.org/abs/2412.11228
- 本文转载自:机器之心