ICLR 2024爆火!杰出论文出炉!
ICLR 2024爆火!杰出论文出炉!
ICLR 2024会议于5月7日至11日在奥地利维也纳展览会议中心举办,共收到7262篇提交论文,接收2260篇,整体接收率约为31%。会议评选出了5篇杰出论文奖和11篇荣誉提名奖,涵盖了扩散模型、机器人模拟器、蛋白质设计、视觉Transformer等多个前沿研究领域。
ICLR全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二届。作为深度学习领域的顶级学术会议,ICLR由图灵奖获得者Yoshua Bengio和Yann LeCun牵头举办,自2013年首届会议以来,已迅速获得学术研究者的广泛认可。
5篇杰出论文奖
1. Generalization in diffusion models arises from geometry-adaptive harmonic representations
- 机构:纽约大学、法兰西公学院
- 作者:Zahra Kadkhodaie、Florentin Guth、Eero P. Simoncelli、Stéphane Mallat
- 论文地址:https://openreview.net/pdf?id=ANvmVS2Yr0
本文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者通过实证研究了图像生成模型何时从记忆输入切换到泛化模式,并通过几何自适应谐波表示与谐波分析的思想建立联系,从架构归纳偏差的角度进一步解释了这一现象。本文涵盖了我们对视觉生成模型理解中缺失的关键部分,对未来研究启发巨大。
2. Learning Interactive Real-World Simulators
- 机构:UC伯克利、Google DeepMind、MIT、阿尔伯塔大学
- 作者:Sherry Yang、Yilun Du、Kamyar Ghasemipour、Jonathan Tompson、Leslie Kaelbling、Dale Schuurmans、Pieter Abbeel
- 论文地址:https://openreview.net/forum?id=sFyTZEqmUY
跨多个来源聚合数据以训练机器人基础模型是一个长期目标。由于不同的机器人具有不同的感知运动接口,这给跨大规模数据集的训练带来了重大挑战。
UniSim,是朝着这个方向迈出的重要一步,也是一项工程壮举,它利用了基于视觉感知和控制的文本描述的统一接口来聚合数据,并通过利用视觉和语言领域的最新发展来训练机器人模拟器。
总结而言,本文探索了通过生成模型学习真实世界交互的通用模拟器UniSim,迈出了构建通用模拟器的第一步。例如UniSim可以通过模拟「打开抽屉」等高级指令和低级指令的视觉结果来模拟人类和智能体如何与世界交互。
本文将大量数据(包括互联网文本-图像对,来自导航、人类活动、机器人动作等的丰富数据,以及来自模拟和渲染的数据)结合到一个条件视频生成框架中。然后通过仔细编排沿不同轴的丰富数据,本文表明UniSim可以成功地合并不同轴数据的经验并泛化到数据之外,通过对静态场景和对象的细粒度运动控制来实现丰富的交互。
3. Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors
- 机构:特拉维夫大学、IBM
- 作者:Ido Amos、Jonathan Berant、Ankit Gupta
- 论文地址:https://openreview.net/forum?id=PdaPky8MUn
这篇论文深入探讨了最近提出的状态空间模型和transformer架构对建模长期序列依赖性的能力。
令人惊讶的是,作者发现从头开始训练transformer模型会导致其性能被低估,并且通过预训练和微调设置可以实现显著的性能提升。该论文在关注简洁性和系统性见解方面表现极佳。
4. Protein Discovery with Discrete Walk-Jump Sampling
- 机构:基因泰克、纽约大学
- 作者:Nathan C. Frey、Dan Berenberg、Karina Zadorozhny、Joseph Kleinhenz、Julien Lafrance-Vanasse、Isidro Hotzel、Yan Wu、Stephen Ra、Richard Bonneau、Kyunghyun Cho、Andreas Loukas、Vladimir Gligorijevic、Saeed Saremi
- 论文地址:https://openreview.net/forum?id=zMPHKOmQNb
这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。
为此,作者引入了一种创新而有效的新建模方法,用来专门针对处理离散蛋白质序列数据的问题。除了在硅中验证该方法外,作者还进行了大量的湿法实验室实验,以测量体外抗体结合亲和力,展示了他们生成方法的有效性。
5. Vision Transformers Need Registers
- 机构:Meta等
- 作者:Timothée Darcet、Maxime Oquab、Julien Mairal、Piotr Bojanowski
- 论文地址:https://openreview.net/forum?id=2dnO3LLiJ1
该篇论文识别了vision transformer网络的特征图中的人工痕迹,这些痕迹以低信息背景区域中的高范数tokens为特征。
作者提出了这种现象发生的关键假设,并提供了一个简单而优雅的解决方案,使用额外的registertokens来解决这些痕迹,从而增强了模型在各种任务上的性能。从这项工作中获得的见解还可以影响其他应用领域。
这篇论文行文极佳,为进行研究提供了一个很好的示范:「识别问题,理解其发生的原因,然后提出解决方案。」
11篇荣誉提名
1. Amortizing intractable inference in large language models
- 机构:蒙特利尔大学、牛津大学
- 作者:Edward J Hu、Moksh Jain、Eric Elmoznino、Younesse Kaddar、Guillaume Lajoie、Yoshua Bengio、Nikolay Malkin
- 论文地址:https://openreview.net/forum?id=Ouj6p4ca60
这篇论文从贝叶斯推理的角度提出了一种在大型语言模型中替代自回归解码的有前景的方法,这可能会激发后续研究。
2. Approximating Nash Equilibria in Normal-Form Games via Stochastic Optimization
- 机构:DeepMind
- 作者:Ian Gemp、Luke Marris、Georgios Piliouras
- 论文地址:https://openreview.net/forum?id=cc8h3I3V4E
这是一篇写得非常清晰的论文,对解决开发高效且可扩展的纳什求解器这一重要问题意义重大。
3. Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness
- 机构:北京大学、北京智源人工智能研究院
- 作者:张博航 盖景初 杜逸恒 叶启威 贺笛 王立威
- 论文地址:https://openreview.net/forum?id=HSKaGOi7Ar
GNN的表达能力是一个重要课题,而当前的解决方案仍然存在很大的局限性。作者提出了一种基于同态计数的新表达理论(expressivity theory)。
4. Flow Matching on General Geometries
- 机构:Meta
- 作者:Ricky T. Q. Chen、Yaron Lipman
- 论文地址:https://openreview.net/forum?id=g7ohDlTITL
本文探讨了在一般几何流形上进行生成建模这一具有挑战性但又十分重要的问题,并提出了一种实用且高效的算法。本文的呈现非常出色,并在广泛的任务上进行了全面的实验验证。
5. Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video
- 机构:中佛罗里达大学、Google DeepMind、阿姆斯特丹大学等
- 作者:Shashanka Venkataramanan、Mamshad Nayeem Rizve、Joao Carreira、Yuki M Asano、Yannis Avrithis
- 论文地址:https://openreview.net/forum?id=Yen1lGns2o
本文提出了一种新颖的自监督图像预训练方法,即通过从连续视频中学习。本文既贡献了新类型的数据,也贡献了一种从新数据中学习的方法。
6. Meta Continual Learning Revisited: Implicitly Enhancing Online Hessian Approximation via Variance Reduction
- 机构:香港城市大学、腾讯AI实验室、西安交通大学等
- 作者:Yichen Wu、Long-Kai Huang、Renzhen Wang、Deyu Meng、魏颖(Ying Wei)
- 论文地址:https://openreview.net/forum?id=TpD2aG1h0D
作者提出了一种新的元连续学习方差减少方法。该方法表现良好,不仅具有实际影响,而且还得到了regret分析的支持。
7. Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
- 机构:伊利诺伊大学厄巴纳-香槟分校、微软
- 作者:Suyu Ge、Yunan Zhang、Liyuan Liu、Minjia Zhang、Jiawei Han、Jianfeng Gao
- 论文地址:https://openreview.net/forum?id=uNrFpDPMyo
本文针对KV缓存压缩问题(该问题对基于Transformer的LLM影响很大),通过一个简单的想法来减少内存,并且无需耗费大量资源进行微调或重新训练即可部署。这种方法非常简单,事实证明它非常有效。
8. Proving Test Set Contamination in Black-Box Language Models
- 机构:斯坦福大学、哥伦比亚大学
- 作者:Yonatan Oren、Nicole Meister、Niladri S. Chatterji、Faisal Ladhak、Tatsunori Hashimoto
- 论文地址:https://openreview.net/forum?id=KS8mIvetg2
本文使用了一个简单而优雅的方法,用于测试受监督的学习数据集是否已被包含在大型语言模型的训练中。
9. Robust agents learn causal world models
- 机构:Google DeepMind
- 作者:Jonathan Richens、Tom Everitt
- 论文地址:https://openreview.net/forum?id=pOoKI3ouv1
这篇论文在奠定理论基础方面取得了长足进展,以便理解因果推理在智能体推广到新领域的能力中所起到的作用,对一系列相关领域也产生了影响。
10. The mechanistic basis of data dependence and abrupt learning in an in-context classification task
- 机构:普林斯顿大学、哈佛大学等
- 作者:Gautam Reddy
- 论文地址:https://openreview.net/forum?id=aN4Jf6Cx69
这是一项及时而极其系统性的研究,探讨了我们在开始理解这些现象的时候,in-context学习与in-weight学习之间的机制。
11. Towards a statistical theory of data selection under weak supervision
- 机构:Granica Computing
- 作者:Germain Kolossov、Andrea Montanari、Pulkit Tandon
- 论文地址:https://openreview.net/forum?id=HhfcNgQn6p
这篇论文为数据子集选择建立了统计基础,并确定了流行的数据选择方法的缺点。