问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

图灵奖得主LeCun 推崇的 JEPA 是什么?

创作时间:

作者:

@小白创作中心

图灵奖得主LeCun 推崇的 JEPA 是什么?

引用

网易

1.

https://www.163.com/dy/article/JI8LPQNN051193U6.html

导读：图灵奖得主Yann LeCun最近在推特上再次推荐了JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）技术。JEPA是一种适用于处理连续数据（如图像、视频和音频）的自监督学习元架构，被认为是AI领域的重要创新。本文将详细介绍JEPA的工作原理、应用场景以及其在不同领域的扩展模型。

JEPA是什么？

JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）是Yann LeCun最喜欢的自监督学习元架构，适用于处理连续数据，如图像、视频和音频。LeCun强调，JEPA不是Transformer的替代品，事实上，许多JEPA系统都使用了Transformer模块。JEPA是自回归生成架构（如大语言模型，无论是否使用Transformer）的替代方案。

在V-JEPA中，网络不是自回归的。它使用了两个Transformer架构，一个用于两个编码器，另一个用于预测器。

JEPA的核心概念

世界模型

LeCun愿景的基础部分是“世界模型”概念，即内部表示世界如何运作。他认为，给模型提供世界的上下文可以改善其结果。“人类、动物和智能系统使用世界模型的想法可以追溯到心理学以及工程领域如控制和机器人学的几十年前。”

自监督学习

LeCun提出了一种模块化、可配置的架构，用于自主智能，强调开发自监督学习方法，使AI无需大量标注数据就能学习这些世界模型。

JEPA的工作原理

JEPA是开发能像人类一样理解和互动的AI的核心元素。它包含了上述关键元素，使系统能够处理不确定性并忽略无关细节，同时保持预测所需的关键信息。

它基于以下元素：

有趣的是，多个JEPA可以组合成多步/循环JEPA，或堆叠成层次化JEPA，以在多个抽象层次和时间尺度上进行预测。

JEPA的应用场景

根据JEPA架构，Meta AI研究人员与Yann LeCun共同发布了几个专门的模型。它们是什么？

图像联合嵌入预测架构 (I-JEPA)

I-JEPA于2023年6月提出，是基于JEPA的第一个模型。I-JEPA是一个非生成性的自监督学习框架，设计用于处理图像。它通过屏蔽图像的一部分并尝试预测这些屏蔽部分来工作：

MC-JEPA (运动-内容联合嵌入预测架构)

MC-JEPA是另一个JEPA变体，设计用于同时解释视频数据：动态元素（运动）和静态细节（内容），使用共享编码器。它于2023年7月提出。MC-JEPA是一个更全面、更强大的视觉表示模型，可用于现实世界中的计算机视觉应用，如自动驾驶、视频监控和活动识别。

视频联合嵌入预测架构 (V-JEPA)

V-JEPA旨在增强AI对视频内容的理解，这在I-JEPA发布后被标记为一个重要的未来方向。V-JEPA由两个主要组件组成：

编码器：将输入视频帧转换为高维空间，其中相似特征更靠近。编码器捕捉视频中的重要视觉线索。
预测器：利用编码特征的一个部分来预测另一部分的特征。这种预测基于学习视频中的时间和空间变换，有助于理解运动和随时间的变化。

V-JEPA的设计使其能够以类似于人类学习的方式从视频中学习——观察和预测视觉世界，而不需要显式标注。模型从无监督视频数据到各种视觉任务的泛化能力，使其成为推进机器理解和互动动态视觉环境的强大工具。

JEPA的广泛应用

2024年3月发表的最新论文“学习和利用视觉表示学习中的世界模型”引入了图像世界模型 (IWM) 的概念，并探讨了如何将JEPA架构推广到更广泛的扰动（如颜色抖动、模糊）中，而不仅仅是屏蔽。

研究探讨了两种类型的世界模型：

不变模型：识别和保持不同场景中的稳定、不变特征
等变模型：适应输入数据的变化，保持发生的关系和变换

研究发现，通过利用这些世界模型，机器可以更准确地预测和调整视觉变化。这导致了更具弹性和适应性的系统开发。该方法挑战了传统的AI方法，提供了一种在不需要直接监督的情况下提高机器学习模型有效性的新途径。

受JEPA启发的模型

我们还为你整理了一份基于JEPA架构的相关模型清单。它们根据应用领域进行分组：

音频和语音应用

A-JEPA：专注于音频数据，使用掩模建模原则以提高音频和语音分类任务中的上下文语义理解。
探索用于通用音频表示学习的联合嵌入预测架构中的设计选择：分析自监督音频表示学习中的掩模策略和样本时长。

视觉和空间数据应用

S-JEA：通过堆叠联合嵌入架构中的层次语义表示，增强视觉表示学习。
DMT-JEPA：聚焦于局部语义理解的图像建模，适用于分类、目标检测和分割。
JEP-KD：将视觉语音识别模型与音频特征对齐，提高视觉语音识别的性能。
Point-JEPA：应用于点云数据，增强空间数据集的效率和表示学习。
Signal-JEPA：专注于EEG信号处理，提高跨数据集的迁移和分类能力。

图表和动态数据应用

Graph-JEPA：第一个用于图表的联合嵌入架构，使用双曲坐标预测子图表示。
ST-JEMA：增强从fMRI数据中学习动态功能连接，专注于高层次语义表示。

时间序列和遥感应用

LaT-PFN：结合时间序列预测和联合嵌入架构，利用相关系列进行稳健的上下文学习。
时间序列JEPA：通过传感器数据中的时空相关性优化有限容量网络的远程控制。
预测梯度更优：利用自监督学习进行SAR自动目标识别，利用梯度特征进行自动目标识别。

评估和方法学研究

LiDAR: 在联合嵌入自监督学习架构中的线性探测性能：引入一种评价联合嵌入自监督学习架构中表示的方法，专注于线性探测性能。

参考资料

JEPA首次提议：Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景
I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构
MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构
V-JEPA: 迈向高级机器智能的下一步
推广JEPA: 视觉表示学习中的学习和利用世界模型

Yann LeCun的演讲

慕尼黑演讲（2023年9月29日）
哈佛演讲（2024年3月28日）

受JEPA启发的模型

我们还为你整理了一份基于JEPA架构的相关模型清单。它们根据应用领域进行分组：

音频和语音应用

A-JEPA：专注于音频数据，使用掩模建模原则以提高音频和语音分类任务中的上下文语义理解。
探索用于通用音频表示学习的联合嵌入预测架构中的设计选择：分析自监督音频表示学习中的掩模策略和样本时长。

视觉和空间数据应用

S-JEA：通过堆叠联合嵌入架构中的层次语义表示，增强视觉表示学习。
DMT-JEPA：聚焦于局部语义理解的图像建模，适用于分类、目标检测和分割。
JEP-KD：将视觉语音识别模型与音频特征对齐，提高视觉语音识别的性能。
Point-JEPA：应用于点云数据，增强空间数据集的效率和表示学习。
Signal-JEPA：专注于EEG信号处理，提高跨数据集的迁移和分类能力。

图表和动态数据应用

Graph-JEPA：第一个用于图表的联合嵌入架构，使用双曲坐标预测子图表示。
ST-JEMA：增强从fMRI数据中学习动态功能连接，专注于高层次语义表示。

时间序列和遥感应用

LaT-PFN：结合时间序列预测和联合嵌入架构，利用相关系列进行稳健的上下文学习。
时间序列JEPA：通过传感器数据中的时空相关性优化有限容量网络的远程控制。
预测梯度更优：利用自监督学习进行SAR自动目标识别，利用梯度特征进行自动目标识别。

评估和方法学研究

LiDAR: 在联合嵌入自监督学习架构中的线性探测性能：引入一种评价联合嵌入自监督学习架构中表示的方法，专注于线性探测性能。

参考资料

JEPA首次提议：Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景
I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构
MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构
V-JEPA: 迈向高级机器智能的下一步
推广JEPA: 视觉表示学习中的学习和利用世界模型

Yann LeCun的演讲

慕尼黑演讲（2023年9月29日）
哈佛演讲（2024年3月28日）

热门推荐

提升自我，轻松脱单！

提升自我，轻松脱单！

春节孝心大升级！科技好物让爸妈乐享健康晚年

春节孝心大升级！科技好物让爸妈乐享健康晚年

普通家庭过年预算攻略：5千到2万的详细支出分析

普通家庭过年预算攻略：5千到2万的详细支出分析

二战"火力怪兽"——大麦克斯坦克歼击车：实验性重型坦克歼击车的辉煌与局限

二战"火力怪兽"——大麦克斯坦克歼击车：实验性重型坦克歼击车的辉煌与局限

姜子牙封神时，商纣王被封为“天喜星”，这个神是干啥的？

姜子牙封神时，商纣王被封为“天喜星”，这个神是干啥的？

济南到泰山，哪种出行方式最适合你？

济南到泰山，哪种出行方式最适合你？

谢大姐教你做正宗阳朔啤酒鱼

谢大姐教你做正宗阳朔啤酒鱼

阳朔啤酒鱼：从渔家巧妇到地方金招牌

阳朔啤酒鱼：从渔家巧妇到地方金招牌

无锡春节旅游攻略景点大全，无锡春节旅游必去十大景点有哪些？

无锡春节旅游攻略景点大全，无锡春节旅游必去十大景点有哪些？

广东观音山：东莞最佳徒步胜地

广东观音山：东莞最佳徒步胜地

银瓶山自然保护区：东莞生态保护新亮点

银瓶山自然保护区：东莞生态保护新亮点

松山湖：东莞的后花园，自然与人文的完美融合

松山湖：东莞的后花园，自然与人文的完美融合

江苏哪里好玩？一篇文章带你畅游江南水乡与古都遗迹！

江苏哪里好玩？一篇文章带你畅游江南水乡与古都遗迹！

张红甫教你做超香家常蛋炒饭秘诀

张红甫教你做超香家常蛋炒饭秘诀

蛋炒饭怎么炒好吃？巧妇教你这4步骤，让你的蛋炒饭更香更美味

蛋炒饭怎么炒好吃？巧妇教你这4步骤，让你的蛋炒饭更香更美味

全国三线建设的十三个省区

全国三线建设的十三个省区

世界读书日：读懂故宫的7本书

世界读书日：读懂故宫的7本书

三地之争：广东、江苏、山东，谁的地理位置与环境更胜一筹？

三地之争：广东、江苏、山东，谁的地理位置与环境更胜一筹？

故宫启动“发现‘中纹’之美”设计大赛，以创新设计传承传统文化

故宫启动“发现‘中纹’之美”设计大赛，以创新设计传承传统文化

故宫设计背后的文化密码

故宫设计背后的文化密码

故宫珍宝馆：凤冠与金杯的秘密

故宫珍宝馆：凤冠与金杯的秘密

探秘龙江古驿路：自驾游的历史文化之旅

探秘龙江古驿路：自驾游的历史文化之旅

为什么申公豹让千万人泪崩？这才是穷山沟大学生的生存实录

为什么申公豹让千万人泪崩？这才是穷山沟大学生的生存实录

盘点12部美国“真实事件改编”的电影！以下那些是你看过的？

盘点12部美国“真实事件改编”的电影！以下那些是你看过的？

孩子调皮捣蛋？这位妈妈的应对方式值得所有家长学习

孩子调皮捣蛋？这位妈妈的应对方式值得所有家长学习

中医教你如何通过饮食调理糖尿病

中医教你如何通过饮食调理糖尿病

你用对生日祝福语了吗？各国特色大揭秘！

你用对生日祝福语了吗？各国特色大揭秘！

最走心的生日祝福语，总有一句能打动你

最走心的生日祝福语，总有一句能打动你

中国文化的全球影响力：传统与现代的完美融合

中国文化的全球影响力：传统与现代的完美融合

唐律里的“格杀勿论”：古代版正当防卫？

唐律里的“格杀勿论”：古代版正当防卫？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号