用于无监督视频异常检测的隐私异常协作学习 (CLAP):新基线
用于无监督视频异常检测的隐私异常协作学习 (CLAP):新基线
背景
视频异常检测的目标是识别视频流中偏离正常模式的行为或事件。根据是否需要标注数据,VAD方法通常可以分为以下几类:
- 监督学习(Supervised Learning):
- 方法:依赖标注的“正常”和“异常”数据。
- 缺点:异常事件的多样性和稀缺性使得全面标注异常行为几乎不可能。
- 示例:开放集异常检测。
- 半监督学习(Semi-Supervised Learning):
- 方法:假设所有未标注数据都是“正常”的,通过学习正常行为来识别异常。
- 示例:基于记忆增强的异常检测。
- 无监督学习(Unsupervised Learning):
- 方法:从未标注的数据中学习正常行为的分布模式,识别偏离分布的异常行为。
- 优点:无需标注,适用范围广。
- 示例:基于生成对抗网络(GAN)或自编码器(Autoencoder)的重建误差检测。
- 弱监督学习(Weakly-Supervised Learning):
- 方法:利用弱标注数据(如视频级别的标签)进行异常检测。
- 示例:多实例学习(MIL)。
无监督异常监测在视频异常监测中尤为重要,无监督学习需要大量的数据用来训练,然后从中找出正常数据的分布,不符合分布的就是异常数据。但在现实中,由于数据隐私的原因,有些数据无法公开的,导致了训练数据的规模不够,所以影响了无监督视频异常监测的实际监测效果,本论文提出的协作学习在这种情况下非常有益。
无监督学习的典型方法有:
- 基于重建误差的监测方法(通过自编码器或生成对抗网络)
- 基于概率密度的监测方法
- 基于时间序列预测的监测方法
- 基于对比学习的方法
联邦学习
联邦学习(Federated Learning, FL)是一种分布式机器学习框架,旨在保护数据隐私的同时实现多个参与方之间的协作模型训练。它的核心思想是:数据不离开本地,而是在本地完成模型训练,只有模型参数或梯度在参与方之间传输。
联邦学习为视频异常检测提供了一种新思路。通过保护数据隐私并避免繁琐的数据传输流程,联邦学习可以帮助多个组织协作训练出高效的异常检测模型,而无需共享原始数据。
监控视频异常监测障碍
- 隐私敏感性
- 不同组织间数据共享困难
- 缺乏大规模数据
a图所示,传统集中式训练需要将所有数据集中到一个中央服务器上,这样提高了隐私泄露风险。
b图所示,各个数据集拥有者在本地训练模型,然后将模型(梯度/参数)发送到中央。
隐私保护技术
- 差分隐私(Differential Privacy):
- 通过向模型参数或梯度添加噪声,确保个体数据无法从更新中被反推出。
- 示例:在医疗数据中的应用。
- 安全多方计算(Secure Multi-Party Computation, MPC):
- 允许多个参与方协同计算某些结果,而无需分享各自的数据。
- 示例:用于联邦学习的安全协议。
- 加密技术:
- 使用同态加密或其他加密方式来保护数据传输中的安全性。
问题
本论文研究的主要问题是通过隐私保护的协作学习来提升数据规模,从而提升异常监测的性能。
方法
本文提出了一种全新的无监督视频异常检测(VAD)框架,命名为 CLAP(Collaborative Learning of Anomalies with Privacy)。
CLAP核心组件:
- 本地异常监测模块
- 功能:训练正常数据的分布,并识别偏离正常模式的异常行为。
- 方法:使用无监督学习的方法,对视频数据的时间和空间特征进行建模。
- 输出:异常评分。
- 联邦聚合模块
- 功能:用联邦学习的方法聚合所有参与方上传的模型参数,生成全局的异常监测模型。
- 方法:使用联邦平均算法(FedAvg),对各参与方的模型参数进行加权平均。
- 公式:
- 分布式隐私保护机制
- (1)差分隐私:对模型参数添加噪声,防止通过模型参数反推本地数据。
- (2)安全多方计算:中央服务器无法直接访问原始参数更新。
- (3)加密传输:通过同态加密等技术加密参数传输。
上图是CLAP的架构图,①参与方在本地训练异常监测模型,然后将参数和梯度上传到中央服务器上。②中央服务器汇总参与方传送的模型参数,然后通过联邦学习方法聚合,生成一个全局模型。③数据保留在本地,模型参数传输到中央服务器上。
模型训练流程:
①初始化全局模型
②本地模型训练
③上传模型更新
④联邦聚合
⑤分发全局模型
⑥重复训练
异常监测流程:
①输入视频帧序列
②异常分数计算
③异常定位
实验
数据集:
- UCF-Crime数据集:包含 13 种异常类别,例如打架、偷窃、交通事故等,还包括正常行为的视频。
- XD-Violence数据集:该数据集的异常类别更加复杂,涵盖了打斗、爆炸等多样化的异常事件。
集中式、本地式和写作式在不同数据集上不同方法比较可以发现,虽然集中式方法AUC指标高,但是数据不安全,写作式能做到既能保证数据安全又能有接近集中式的性能。
本论文提出了三种评估协议:
- 协议 1(Protocol 1):
- 场景:所有参与方的数据都可用,模拟最佳协作环境。
- 目标:测试 CLAP 在数据分布均匀且完整协作下的性能。
- 协议 2(Protocol 2):
- 场景:部分参与方的数据缺失,模拟部分数据不可用的情况。
- 目标:测试 CLAP 在数据缺失情况下的鲁棒性(Robustness)。
- 协议 3(Protocol 3):
- 场景:参与方的数据分布高度异质化(Non-IID),即不同参与方的数据分布存在较大差异。
- 目标:测试 CLAP 在现实分布不均场景下的适应能力。
性能评估指标:
- AUC(Area Under Curve): AUC越高,说明模型的整体分类能力越强。
- AP(Average Precision): 评估精确率与召回率之间的平衡。
- 异常定位精度(Anomaly Localization Accuracy): 测试模型在视频时间轴上定位异常事件的能力。
CLAP 在无标签数据场景下的性能显著优于现有 SOTA 方法,尤其在复杂数据集(如 XD-Violence)上的表现尤为突出。
贡献
本文提出了一个全新的基准方法,能够在完全无标签的隐私保护参与式分布式训练配置中检测并定位复杂监控视频中的异常事件。