图灵奖得主LeCun 推崇的 JEPA 是什么?
图灵奖得主LeCun 推崇的 JEPA 是什么?
导读:图灵奖得主Yann LeCun最近在推特上再次推荐了JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)技术。JEPA是一种适用于处理连续数据(如图像、视频和音频)的自监督学习元架构,被认为是AI领域的重要创新。本文将详细介绍JEPA的工作原理、应用场景以及其在不同领域的扩展模型。
JEPA是什么?
JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)是Yann LeCun最喜欢的自监督学习元架构,适用于处理连续数据,如图像、视频和音频。LeCun强调,JEPA不是Transformer的替代品,事实上,许多JEPA系统都使用了Transformer模块。JEPA是自回归生成架构(如大语言模型,无论是否使用Transformer)的替代方案。
在V-JEPA中,网络不是自回归的。它使用了两个Transformer架构,一个用于两个编码器,另一个用于预测器。
JEPA的核心概念
世界模型
LeCun愿景的基础部分是“世界模型”概念,即内部表示世界如何运作。他认为,给模型提供世界的上下文可以改善其结果。“人类、动物和智能系统使用世界模型的想法可以追溯到心理学以及工程领域如控制和机器人学的几十年前。”
自监督学习
LeCun提出了一种模块化、可配置的架构,用于自主智能,强调开发自监督学习方法,使AI无需大量标注数据就能学习这些世界模型。
JEPA的工作原理
JEPA是开发能像人类一样理解和互动的AI的核心元素。它包含了上述关键元素,使系统能够处理不确定性并忽略无关细节,同时保持预测所需的关键信息。
它基于以下元素:
有趣的是,多个JEPA可以组合成多步/循环JEPA,或堆叠成层次化JEPA,以在多个抽象层次和时间尺度上进行预测。
JEPA的应用场景
根据JEPA架构,Meta AI研究人员与Yann LeCun共同发布了几个专门的模型。它们是什么?
图像联合嵌入预测架构 (I-JEPA)
I-JEPA于2023年6月提出,是基于JEPA的第一个模型。I-JEPA是一个非生成性的自监督学习框架,设计用于处理图像。它通过屏蔽图像的一部分并尝试预测这些屏蔽部分来工作:
MC-JEPA (运动-内容联合嵌入预测架构)
MC-JEPA是另一个JEPA变体,设计用于同时解释视频数据:动态元素(运动)和静态细节(内容),使用共享编码器。它于2023年7月提出。MC-JEPA是一个更全面、更强大的视觉表示模型,可用于现实世界中的计算机视觉应用,如自动驾驶、视频监控和活动识别。
视频联合嵌入预测架构 (V-JEPA)
V-JEPA旨在增强AI对视频内容的理解,这在I-JEPA发布后被标记为一个重要的未来方向。V-JEPA由两个主要组件组成:
- 编码器:将输入视频帧转换为高维空间,其中相似特征更靠近。编码器捕捉视频中的重要视觉线索。
- 预测器:利用编码特征的一个部分来预测另一部分的特征。这种预测基于学习视频中的时间和空间变换,有助于理解运动和随时间的变化。
V-JEPA的设计使其能够以类似于人类学习的方式从视频中学习——观察和预测视觉世界,而不需要显式标注。模型从无监督视频数据到各种视觉任务的泛化能力,使其成为推进机器理解和互动动态视觉环境的强大工具。
JEPA的广泛应用
2024年3月发表的最新论文“学习和利用视觉表示学习中的世界模型”引入了图像世界模型 (IWM) 的概念,并探讨了如何将JEPA架构推广到更广泛的扰动(如颜色抖动、模糊)中,而不仅仅是屏蔽。
研究探讨了两种类型的世界模型:
- 不变模型:识别和保持不同场景中的稳定、不变特征
- 等变模型:适应输入数据的变化,保持发生的关系和变换
研究发现,通过利用这些世界模型,机器可以更准确地预测和调整视觉变化。这导致了更具弹性和适应性的系统开发。该方法挑战了传统的AI方法,提供了一种在不需要直接监督的情况下提高机器学习模型有效性的新途径。
受JEPA启发的模型
我们还为你整理了一份基于JEPA架构的相关模型清单。它们根据应用领域进行分组:
音频和语音应用
- A-JEPA:专注于音频数据,使用掩模建模原则以提高音频和语音分类任务中的上下文语义理解。
- 探索用于通用音频表示学习的联合嵌入预测架构中的设计选择:分析自监督音频表示学习中的掩模策略和样本时长。
视觉和空间数据应用
- S-JEA:通过堆叠联合嵌入架构中的层次语义表示,增强视觉表示学习。
- DMT-JEPA:聚焦于局部语义理解的图像建模,适用于分类、目标检测和分割。
- JEP-KD:将视觉语音识别模型与音频特征对齐,提高视觉语音识别的性能。
- Point-JEPA:应用于点云数据,增强空间数据集的效率和表示学习。
- Signal-JEPA:专注于EEG信号处理,提高跨数据集的迁移和分类能力。
图表和动态数据应用
- Graph-JEPA:第一个用于图表的联合嵌入架构,使用双曲坐标预测子图表示。
- ST-JEMA:增强从fMRI数据中学习动态功能连接,专注于高层次语义表示。
时间序列和遥感应用
- LaT-PFN:结合时间序列预测和联合嵌入架构,利用相关系列进行稳健的上下文学习。
- 时间序列JEPA:通过传感器数据中的时空相关性优化有限容量网络的远程控制。
- 预测梯度更优:利用自监督学习进行SAR自动目标识别,利用梯度特征进行自动目标识别。
评估和方法学研究
- LiDAR: 在联合嵌入自监督学习架构中的线性探测性能:引入一种评价联合嵌入自监督学习架构中表示的方法,专注于线性探测性能。
参考资料
- JEPA首次提议:Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景
- I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构
- MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构
- V-JEPA: 迈向高级机器智能的下一步
- 推广JEPA: 视觉表示学习中的学习和利用世界模型
Yann LeCun的演讲
- 慕尼黑演讲(2023年9月29日)
- 哈佛演讲(2024年3月28日)
受JEPA启发的模型
我们还为你整理了一份基于JEPA架构的相关模型清单。它们根据应用领域进行分组:
音频和语音应用
- A-JEPA:专注于音频数据,使用掩模建模原则以提高音频和语音分类任务中的上下文语义理解。
- 探索用于通用音频表示学习的联合嵌入预测架构中的设计选择:分析自监督音频表示学习中的掩模策略和样本时长。
视觉和空间数据应用
- S-JEA:通过堆叠联合嵌入架构中的层次语义表示,增强视觉表示学习。
- DMT-JEPA:聚焦于局部语义理解的图像建模,适用于分类、目标检测和分割。
- JEP-KD:将视觉语音识别模型与音频特征对齐,提高视觉语音识别的性能。
- Point-JEPA:应用于点云数据,增强空间数据集的效率和表示学习。
- Signal-JEPA:专注于EEG信号处理,提高跨数据集的迁移和分类能力。
图表和动态数据应用
- Graph-JEPA:第一个用于图表的联合嵌入架构,使用双曲坐标预测子图表示。
- ST-JEMA:增强从fMRI数据中学习动态功能连接,专注于高层次语义表示。
时间序列和遥感应用
- LaT-PFN:结合时间序列预测和联合嵌入架构,利用相关系列进行稳健的上下文学习。
- 时间序列JEPA:通过传感器数据中的时空相关性优化有限容量网络的远程控制。
- 预测梯度更优:利用自监督学习进行SAR自动目标识别,利用梯度特征进行自动目标识别。
评估和方法学研究
- LiDAR: 在联合嵌入自监督学习架构中的线性探测性能:引入一种评价联合嵌入自监督学习架构中表示的方法,专注于线性探测性能。
参考资料
- JEPA首次提议:Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景
- I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构
- MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构
- V-JEPA: 迈向高级机器智能的下一步
- 推广JEPA: 视觉表示学习中的学习和利用世界模型
Yann LeCun的演讲
- 慕尼黑演讲(2023年9月29日)
- 哈佛演讲(2024年3月28日)