问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ICML 2024 顶级论文:机器学习有什么新进展?

创作时间:
作者:
@小白创作中心

ICML 2024 顶级论文:机器学习有什么新进展?

引用
CSDN
1.
https://blog.csdn.net/ms44/article/details/141430167

ICML(国际机器学习大会)是机器学习领域最具影响力的学术会议之一。2024年7月21日至27日,ICML大会在奥地利维也纳举行,共收到9,653篇论文投稿,最终录取2,609篇,录取率仅为27.03%。本文将重点介绍本届大会中最具代表性的几篇论文,涵盖最佳论文奖获得者、时间序列分析、大型语言模型和迁移学习以及计算机视觉和音频等多个热门研究方向。

1. 最佳论文奖获奖者

本届获奖论文由滑铁卢大学教授Gautam Kamath、苏黎世联邦理工学院计算机科学家Florian Tramèr和Google DeepMind研究员Nicholas Carlini共同撰写。这篇论文挑战了当前所有大型语言模型训练范式的传统认知。

论文指出,在数百万个数据点上训练的大型语言模型在这些数据包含私人或敏感信息时会构成威胁。目前推荐的解决方案是在公共数据上训练模型,然后在私人数据上进行微调。然而,作者认为,即使是所谓的公开数据也可能包含有关个人的敏感或私人信息,这存在泄露机密性的风险。

论文表明,这种训练范式可能导致机密性丧失,主要有两个原因:

  1. 仅基于公共和私人数据分布重叠的参数来高估公共预训练的价值。
  2. 这些大型模型的训练需要大量的计算能力,而这些计算能力无法在最终用户的机器上执行,从而导致私人数据的外包。

2. 时间序列

用于时间序列预测的仅解码器基础模型

研究人员提出了一种名为TimesFM(时间序列基础模型)的零样本时间序列预测基础模型。该模型基于以下原则:

  • 修补:补丁类似于语言模型中的标记。
  • 仅解码器模型:给定一系列输入补丁,该模型经过优化,可以根据所有过去补丁的函数来预测下一个补丁。
  • 更长的输出补丁:更长的输出序列,以避免与预测范围长度的先验知识相关的限制。

实验结果表明,该零样本模型能够达到全监督模型的性能。


图 1:LLMTime(Zero-Shot) 的架构


图 2:LLMTime(Zero-Shot)的预测可视化

立场:大型语言模型能告诉我们有关时间序列分析的什么信息

研究人员强调了大型语言模型在时间序列数据上的潜在应用,并指出其能够“促进有效决策并朝着更通用的时间序列分析智能形式迈进”。本文的主要贡献包括:

  • 为使用LLM进行时间序列分析提供了新的视角。
  • 对现有方法进行基准测试和审查,并提出将LLM集成到时间序列分析中的路线图。
  • 发现未来的机会。


图 3:时间序列分析路线图

TimeMIL:通过时间感知多实例学习推进多元时间序列分类

研究人员提出了一种称为多实例学习(MIL)的新方法,可以更好地捕捉兴趣点并模拟时间序列中的时间依赖性。TimeMIL通过区分时间序列中的正实例和负实例来做出决策,其中每个时间点都是一个在实践中通常没有标签的实例。


图 4:监督模型 VS TimeMIL

时间编织者:条件时间序列生成模型

研究人员提出了一种基于扩散模型的方法,该方法利用分类、连续甚至时间特征形式的元数据来克服上述问题。此外,他们还提出了一种新的评估指标,能够准确捕捉生成的时间序列的真实性。


图 5:在传播过程中整合元数据的时间编织器架构

3. 大型语言模型和迁移学习

将知识从大型基础模型转移到小型下游模型

AWS AI Lab的研究人员提出了一种名为自适应特征迁移(AFT)的新知识迁移方法。这种方法的目标是解决与迁移学习相关的问题,例如:

  • 重量转移导致信息传递受限。
  • 预训练模型通常很大。
  • 无法结合学习互补信息的多个模型。

LLaGA:大型语言和图形助手

本文提出了一种名为LLaGA(大型语言和图形助手)的新模型。该模型能够使用LLM处理图形数据。该方法基于将这些图形数据映射到与LLM兼容的空间。LLaGA在各种数据集的泛化和可解释性方面表现出色。


图 6:LLaGA 框架

FrameQuant:Transformer 的灵活低位量化

在本文中,作者建议进一步采用2位量化,同时将性能损失降至最低。该方法基于一种称为“融合帧”的谐波分析。他们表明,关键在于量化的应用位置,不应在原始权重空间中进行,而应在融合帧的表示中进行。

DISTILLM:面向大型语言模型的精简提炼

模型蒸馏是指使用较大的模型(称为教师模型)来创建较小的模型(称为学生模型),目的是在保持性能的同时降低成本和内存。这种方法对某些模型很有效,但对LLM却不太适用。本文建议将蒸馏应用于LLM,并介绍DistiLLM。

本文的主要贡献是:

  • 倾斜KLD(Kullback-Leibler散度):一种新的目标函数,针对稳定的梯度和最小的近似误差进行了优化。
  • 自适应离线策略方法:减少训练时间。
  • 先进的性能和效率:DistiLLM与最先进的性能相媲美。

4. 计算机视觉和音频

Vision Mamba:通过双向状态空间模式实现高效的视觉表征学习

Mamba是一种新的状态空间模型架构,在语言建模等信息密集型数据上表现出色,而之前的次二次模型则不如Transformers。它基于结构化状态空间模型的进展路线,具有高效的硬件感知设计和实现,秉承了FlashAttention的精神。

因此,回到Vision Mamba(Vim),它利用Mamba架构使其适应视觉数据。与Vision Transformers相比,Vim在ImageNet分类任务、COCO对象检测和分割方面实现了卓越的性能,同时速度提高了2.8倍并节省了86.8%的GPU内存。


图 7:Mamba Vision 架构

ConvNet 与 Transformer、Supervised 与 CLIP:超越 ImageNet 准确率

Meta AI的这篇论文提出,通过考虑其他参数来捕捉所有可能的细微差别,从而超越计算机视觉任务的准确性。事实上,研究人员认为,尽管Vision Transformers、ConvNet架构和CLIP之间的性能相似,但许多其他不同方面可能会有所不同。其中包括错误类型、输出校准、可转移性和特征不变性等。

下图显示了我们在衡量视觉模型性能时可以考虑的参数。


比较具有相同准确率的模型

UniAudio:面向大型语言模型的通用音频生成

在本文中,研究人员介绍了UniAudio,这是一个利用LLM技术生成各种类型音频的模型,包括声音、语音、音乐和歌唱。该模型经过165,000小时音频的训练,拥有10亿个参数。

以下是UniAudio工作原理的简要概述:

  • 首先,它将所有类型的目标音频与其他条件模式一起标记化。
  • 然后,它将源-目标对连接为一个序列。
  • 最后,它使用LLM执行下一个标记预测。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号