问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数学遇上人工智能,深度学习架构迎来最强挑战者 KAN,MLP 的时代结束了?

创作时间:
作者:
@小白创作中心

数学遇上人工智能,深度学习架构迎来最强挑战者 KAN,MLP 的时代结束了?

引用
CSDN
1.
https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/138428688

多层感知器(MLP,Multilayer Perceptron)作为人工神经网络的一个基本架构,一直在历史上扮演着至关重要的角色。但随着AI的发展,MLP逐渐显露出可解释性不足、计算复杂度高等问题。近日,一种全新的神经网络架构KAN(Kolmogorov-Arnold Networks)横空出世,它以Kolmogorov-Arnold表示定理为理论基础,提出了全新的架构思路。

MLP的历史地位与局限性

MLP作为最早被广泛研究和应用的神经网络模型之一,是许多复杂深度学习架构的起点和基础。它奠定了神经网络能够解决非线性问题的基础,是理解更高级神经网络结构的入门。虽然结构相对简单,但MLP已经能够处理复杂的分类和回归任务,展示了神经网络的强大适应能力和学习能力,为后续深度学习的发展铺平了道路。此外,MLP不仅在理论上证明了神经网络的普遍近似能力,而且在实践中也取得了显著的性能表现,特别是在早期的手写数字识别等机器学习应用当中。

但AI发展到今天,MLP几乎一点没变,人类的需求却越来越多了。MLP在庞大的需求压力下暴露出了一个又一个缺点:可解释性和交互性不足、处理大尺寸图像的时候计算复杂且有过拟合问题、缺乏灵活性和适应性、自动特征提取方面的能力较弱……

KAN的诞生及其优势

4月30日,全新的神经网络架构KAN横空出世。它的使命只有一个:取代MLP。

KAN全称Kolmogorov-Arnold Networks,其最大意义就是作为MLPs最具潜力的替代品,提出了全新的架构思路。KAN受到Kolmogorov-Arnold表示定理的启发,在以下几个方面展现了显著的优势:

  1. 增强的准确性与效率:与传统MLPs相比,KANs能够使用更少的参数达到相同或更好的准确度,尤其是在数据拟合和偏微分方程求解等任务中。这意味着在处理复杂科学和数学问题时,KANs可能提供更高效的解决方案。

  2. 可学习的激活函数:KANs的一个核心创新点是将可学习的激活函数置于边(权重)上,而非节点(如MLPs)。这不仅允许模型学习到更复杂的函数关系,还使得每个权重参数由一个参数化的样条函数代替,从而提高了模型的表达能力。

  3. 增强的可解释性:KANs的结构可以直观地被可视化,并且容易与人类用户交互,这有助于科学家们理解模型内部的工作原理,甚至直接参与到模型的优化和“发现”过程中。通过手动调整和简化KANs,科学家们能够引导模型发现或验证数学与物理定律,促进AI与科学家之间的合作。

  4. 适应性和灵活性:利用样条基函数的内在局部性,KANs支持适应性设计和训练,比如引入多级训练策略,提高模型的准确性和训练效率。这种适应性使得KANs能更好地匹配不同任务的需求。

  5. 自动发现高效结构:实验结果显示,自动发现的KAN结构通常比人为构建的更为紧凑,表明Kolmogorov-Arnold表示可能在某些情况下能以比预期更高效的方式压缩和表示信息,尽管这也可能给模型的直接可解释性带来挑战。

KAN的理论基础

KAN的灵感来源:Kolmogorov-Arnold表示定理是个啥?

Kolmogorov-Arnold表示定理(Kolmogorov-Arnol'd Representation Theorem或Kolmogorov Superposition Theorem)是数学中的一个重要结果,由苏联数学家安德烈·尼古拉耶维奇·科尔莫戈罗夫(Andrey Nikolaevich Kolmogorov)和弗拉基米尔·伊戈列维奇·阿诺尔德(Vladimir Igorevich Arnold)分别独立提出。这个定理表明了连续函数的一种非常有趣的表示形式,它对于理解函数的复杂性以及在某些领域,如机器学习、科学计算和函数逼近有着重要的意义。

Kolmogorov-Arnold定理大致上是说,任何在n维实数空间上的连续函数f(x),其中x=(x1, x2, ..., xn),都可以表示为一个单一变量的连续函数h和一系列连续的双变量函数gi和gi,j的组合。具体来说,定理表明存在这样的表示形式:

其中,h是一个在实数轴上的连续函数,而每个gi和gi,j都是定义在实数上的连续双变量函数。这个表示表明,即使在一个高维空间中的复杂函数,也可以通过一系列较低维度的函数操作来重构。

1957年,“现代概率论之父”科尔莫戈罗夫(下图左)首次提出了这个定理,展示了一种将多变量函数简化为单变量函数叠加的方法,这一成果在当时是极为创新的。后来,阿诺尔德(下图右)对科尔莫戈罗夫的工作进行了独立的证明和拓展,使得这个定理得到了更广泛的注意和应用。


无巧不成书,在Kolmogorov-Arnold表示定理诞生一年之后的1958年,被后世称为“神经网络之父”的弗兰克·罗森布拉特(Frank Rosenblatt)在他的著作《Perceptron》中介绍了一个包含输入层、隐藏层(该隐藏层具有随机且不进行学习的权重)以及具有学习连接的输出层的分层网络,如今这被视为MLP的雏形,它并不等同于现代意义上具有反向传播能力的MLP,也未形成深度学习网络的概念。

KAN的设计灵感正是来源于Kolmogorov-Arnold表示定理。前面提到,该定理表明,任何多元连续函数都可以表示为单变量连续函数的两层嵌套叠加。基于这一理论,研究人员创新性地将此数学概念应用到了神经网络架构的设计中,创造出了KAN。

当然,KAN的名字Kolmogorov-Arnold Network也正是直接以这两位数学家命名,未来KAN若成为了机器学习的范式,全世界都需要记住这两位的名字……

KAN的核心创新在于,它不是像传统MLP那样在网络的神经元上应用固定的激活函数,而是在权重上应用可学习的激活函数。这些一维激活函数被参数化为样条曲线,从而使得网络能够以一种更灵活、更接近Kolmogorov-Arnold表示定理的方式来处理和学习输入数据的复杂关系。这种设计使得KAN能够以一种理论上更高效、更通用的方式逼近复杂的函数关系,理论上可能在某些任务上超越了MLP的性能。

简而言之,KAN是Kolmogorov-Arnold表示定理的一次直接应用,它试图通过参数化的激活函数和特殊的网络架构设计,实现对复杂数据分布更优的建模能力,从而在实践中展现出相较于传统MLP架构的优越性。

KAN的开发团队与技术细节

KAN的论文一作刘子鸣(下图左)是一位兼具物理与机器学习背景的研究者,他出生于武汉,在北京大学物理学系完成本科学业,早年还在微软亚洲研究院实习。如今刘子鸣正于麻省理工(MIT)与人工智能与基础科学研究所(IAIFI)攻读博士三年级,师从Max Tegmark(下图右)。KAN的成果正是由刘子鸣与老师Max Tegmark及来自MIT、东北大学、IAIFI和加州理工学院(Caltech)的优秀合作者共同完成。


刘子鸣的研究热情聚焦于AI与物理学(乃至整个科学界)的交融地带,探索三个核心方向:

  • AI背后的物理学(Physics of AI)。从物理学原理洞悉AI本质:“简约如物理的AI”;
  • 物理学启迪的AI(Physics for AI)。借鉴物理规律创新AI技术:“自然流畅如物理的AI”;
  • 助力物理学的AI(AI for physics)。以AI强化物理学研究:“能力比肩物理学家的AI”。

以此愿景为核心,他致力于运用AI+物理学打造更加美好的世界,涉猎领域广泛,涵盖物理定律发掘、物理启发的生成模型、机器学习理论及模型可解释性等诸多方面。

在X上,刘子鸣也是进一步分享了许多技术细节:

  • 多层感知器(MLPs)的设计理念受到了万能近似定理(UAT)的启发。这个定理表明,在理想条件下,具有足够多隐藏层的MLP能够以任意精度逼近任何连续函数。然而,它并没有直接说明固定宽度(即网络的层数和每层的神经元数量保持不变)的网络能否达到无限的预测精度。而基于Kolmogorov-Arnold表示定理的KANs,则在满足一定条件的情况下,理论上能够实现固定宽度网络对某些函数的无限精度逼近(事实上也伴随着特定的限制或前提条件)。
  • 传统上,MLPs在网络中的神经元位置应用激活函数。而KANs则可以打破常规,将(可学习的)激活函数直接置于权重上。
  • 神经网络的“scaling laws”:KANs相比MLPs展现出更快的规模增长速度,这一优势在数学上得益于Kolmogorov-Arnold表示定理的坚实基础。所以KANs的规模增长指数不仅在理论上成立,实际上也可通过实验观察到,证实了其在实践中同样高效的扩展能力。
  • KANs在函数拟合任务中表现出更高的准确性,例如对于特定函数的拟合,它们的性能超越了传统的MLPs。
  • 在求解偏微分方程(如泊松方程)的问题上,KANs相较于MLPs展现了更高的求解精度。

……

MLPs不行,KANs行——千言万语束成一句话:Yes we KAN!

KAN的技术细节与应用前景

让我们进一步阅读论文,看看还有哪些奥秘:

架构设计

KANs的核心创新在于它们将传统的MLPs中的节点激活函数转移到了网络的边(权重)上。论文中提到,“KANs在边上具有可学习的激活函数,而MLPs则在节点上设置固定激活函数。”

具体实现上,KAN的所有权重参数被单变量函数取代,这些函数被参数化为B样条曲线,每个一维函数都具有可训练的局部B样条基函数系数(参见下图右)。这种设计允许网络更灵活地逼近复杂的函数关系。

克服传统限制

论文指出,尽管原始的Kolmogorov-Arnold表示仅对应于两层网络,但作者们通过类比MLPs的层次结构,提出了一种深化KAN的方法。他们定义了一个KAN层,它由一组一维函数构成,这些函数以矩阵形式组织,输入和输出维度分别为nin和nout。

文中阐述:“一个具有nin维输入和nout维输出的KAN层可以定义为1D函数的矩阵Φ={ϕq,p},其中函数ϕq,p具有可训练参数。”这一突破使得KAN能够通过堆叠更多这样的层来构建更深层的网络,从而理论上能够更加精确地逼近任意复杂度的函数。

使用网格扩展(Grid Extension)以提升精度

KANs的一个关键优势在于它们能够利用样条函数的特性,通过增加网格的精细度(即网格扩展),理论上可以无限接近目标函数的精度。与MLPs不同,后者提高精度主要依赖于增加网络的宽度和深度,这通常伴随着训练成本的大幅增加且效果提升缓慢,KANs则可以通过简单地细化其内部样条函数的网格来实现,无需从头开始重新训练更大的模型。

作者通过一个示例(包含变量x和y的复合函数)来展示网格扩展的效果,说明随着网格点数量的增加,训练损失迅速下降,但测试损失呈现先降后升的U形曲线,反映了偏差-方差权衡的问题。这一观察结果提示,存在一个最优的网格大小,即插值阈值,使得模型既不过拟合也不欠拟合,达到最佳泛化性能。

研究发现,较小规模的KANs(例如上图[2,1,1]配置)相比较大规模的(如上图[2,5,1]配置)在特定情况下能取得更好的测试性能,这突显了选择合适KAN架构的重要性。此外,KANs还引入了外部自由度(节点连接构成的计算图)与内部自由度(激活函数内的网格点)的概念。前者负责学习多变量的组合结构,而后者专注于学习单变量函数,这两种自由度的结合使KANs具有独特的优势。

应用实例

在数学和物理学的应用上,论文提到了KANs能够辅助科学家发现或重新发现定律。例如,在无监督模式下,KANs成功地重新发现了已知的数学关系,如体积V与密度μr及长度λ的关系V=μrλ。此外,KANs还探索了安德森局域化现象,这是一种量子系统中的重要现象,其中随机无序导致电子波函数局限,进而阻止所有传输。论文提及:“在三维中,存在一个临界能量,它划分了扩展态与局域态,称为移动边缘。对这些移动边缘的理解对于解释固体中的金属-绝缘体转变等基本现象至关重要。”

KAN的未来展望

刘子鸣在X上回答了这个问题,并给出了理由:

根据我们的实证研究结果,我们相信KANs凭借其高准确性、参数效率及可解释性,将成为AI与科学结合领域中一个极为有用的模型或工具。至于KANs在机器学习相关任务上的应用潜力,目前更多处于推测阶段,这将是未来研究的课题。

事实上,论文中也探讨了这个问题。当前,KANs面临的主要瓶颈在于其训练速度较慢。在相同参数数量下,KANs的训练速度通常比MLPs慢大约10倍。研究团队在优化KANs的效率方面尚未进行深度探索,因此他们认为KANs训练速度慢更多是一个有待未来工程技术改进的问题,而非根本性局限。

如果追求快速训练模型,MLPs无疑是首选。但在其他情形下,尤其是在乎模型的可解释性和/或预测准确性,且不把训练速度视为首要考量因素时,KANs应是可媲美甚至优于MLPs的选择,值得尝试。

下图的决策树有助于判断何时采用KAN。简而言之,如果你重视模型的可解释性和/或追求高精度,且不介意较慢的训练速度,作者推荐尝试使用KANs。

论文链接:
https://arxiv.org/html/2404.19756v1(HTML版本)
https://arxiv.org/pdf/2404.19756v1(PDF版本)

GitHub链接:
https://github.com/KindXiaoming/pykan

本文原文来自《新程序员》编辑部

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号