栏目分类

热点资讯

你的位置：管理系统开发要多少钱 > 管理系统开发 > 管理系统开发价格最近火到出圈的一篇数学论文，到底说了什么？为什么能掀翻海潮？

管理系统开发价格最近火到出圈的一篇数学论文，到底说了什么？为什么能掀翻海潮？

发布日期：2024-08-01 05:24 点击次数：169

图片

四月，arXiv上出现了一篇题为《KAN: Kolmogorov-Arnold Networks》的论文。该论文得到约5000个赞，关于一篇学术论文来说，可谓是相配火爆。随附的GitHub库已有7600多个星标，且数字还在执续增长。

图片

Kolmogorov-Arnold 收罗（KAN）是一种全新的神经收罗构建块。它比多层感知器（MLP）更具抒发力、更不易过拟合且更易于解说。多层感知器在深度学习模子中无处不在。举例，咱们知谈它们被用于GPT-2、3以及（可能的）4等模子的Transformer模块之间。对MLP的纠正将对机器学习天下产生平凡的影响。

MLP

MLP实践上是一种绝顶迂腐的架构，可以追思到50年代。其联想初志是师法大脑结构；由好多互联的神经元构成，这些神经元将信息上前传递，因此得名前馈收罗（feed-forward network）。

图片

MLP频繁通过访佛上图的泄漏图来展示。关于生手来说，这很灵验，但在我看来，它并莫得传达出果真正在发生的事情的长远衔接。用数学来泄漏它要容易得多。

假定有一些输入x和一些输出y。一个两层的MLP将如下所示：

图片

其中W是可学习权重的矩阵，b是偏差向量。函数f是一个非线性函数。看到这些方程，很显著，一个MLP是一系列带有非线性罢了的线性追忆模子。这是一个绝顶基本的缔造。

尽管基本，但它抒发力极强。稀疏学保证，MLP是通用面临器，即：它们可以面临任何函数，访佛于扫数函数齐可以用泰勒级数来泄漏。

为了训练模子的权重，咱们使用了反向传播（backpropagation），这要归功于自动微分(autodiff)。我不会在这里深入讨论，但迫切的是要小心自动微分可以对任何可微函数起作用，这在后头会很迫切。

MLP的问题

MLP在平凡的用例中被使用，但存在一些严重的瑕玷。

因为它们行为模子极其活泼，可以很好地允洽任何数据。赶走，它们很可能过拟合。

模子中赓续包含大批的权重，解说这些权重以从数据中得出论断变得绝顶艰苦。咱们常说深度学习模子是“黑盒”。

领有大批的权重还意味着它们的训练可能会很长，GPT-3的大部分参数齐在MLP层中。

Kolmogorov-Arnold 收罗

Kolmogorov-Arnold 泄漏定理

Kolmogorov-Arnold 泄漏定理的观念访佛于撑执MLP的通用面临定理，但前提不同。它实质上说，任何多变量函数齐可以用1维非线性函数的加法来泄漏。举例：向量v=(x1, x2)的除法运算可以用对数和指数代替：

图片

为什么这会灵验呢？这究竟已毕了什么？

这为咱们提供了一种不同但浅薄的范式来入手构建神经收罗架构。作家宣称，这种架构比使用多层感知器（MLP）更易于解说、更高效地使用参数，何况具有更好的泛化能力。在MLP中，非线性函数是固定的，在训练历程中从未转变。而在KAN中，不再有权重矩阵或偏差，惟有允洽数据的一维非线性函数。然后将这些非线性函数相加。咱们可以堆叠越来越多的层来创建更复杂的函数。

B样条（B-splines）

在KAN中泄漏非线性的模样中有少量迫切的是需要小心的。与MLP中明确界说的非线性函数（如ReLU()、Tanh()、silu()等）不同，KAN的作家使用样条。这些基本上是分段多项式。它们源自预备机图形限制，在该限制中，过度参数化并不是一个问题。

样条照看了在多个点之间平滑插值的问题。淌若你熟识机器学习表面，你会知谈要在n个数据点之间好意思满插值，需要一个n-1阶的多项式。问题是高阶多项式可能变得绝顶迂回，看起来拒抗滑。

图片

10个数据点被一个9阶多项式好意思满拟合

通过将分段多项式函数允洽于数据点之间的部分，样条照看了这个问题。这里咱们使用三次样条。

图片

三次样条插值更好，但不行泛化

关于三次样条（样条的一种类型），为了确保平滑，需要在数据点(或结点)的位置对一阶和二阶导数缔造拘谨。数据点两侧的弧线必须在数据点处具有匹配的一阶导数和二阶导数。

5月31日一早，大奖得主何先生（化姓）在家人陪同下，来到中山福彩中心办理兑奖手续。据何先生介绍，他是中山本地人，今年三十多岁，偶尔会在闲暇时光投注双色球和刮刮乐等福彩游戏，体验购彩乐趣，支持公益事业。

KAN使用的是B样条，管理系统开发价格另一种类型的样条，具有局部性（挪动一个点不会影响弧线的全体体式）和匹配的二阶导数（也称为C2一语气性）的特质。这么作念的代价是实践上不判辨过这些点（除了在顶点情况下）。

图片

3条B样条对应5个数据点。小心弧线是若何欠亨过数据点的。

在机器学习中，极端是在利用于物理学时，不经过每一个数据点是可以秉承的，因为咱们瞻望测量会有噪声。

这便是在KAN的预备图的每一个旯旮发生的事情。一维数据用一组B样条进行拟合。

干涉KAN

因此，现时咱们在预备图的每个旯旮齐有一个分段的参数弧线。在每个节点，这些弧线被乞降：咱们之前看到，可以通过这种模样面临任何函数。

图片

为了训练这么的模子，咱们可以使用次序的反向传播。在这种情况下，作家使用的是LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno），这是一种二阶优化手艺（与Adam这种一阶手艺比较）。另一个需要小心的细节是：在每个代表一维函数的边上，有一个B样条，但作家还加多了一个非线性函数：silu函数。

图片

对此的解说不是很明晰，但很可能是由于梯度消散（这是我的规划）。

咱们来试用一下

我缱绻使用作家提供的代码，它运行得绝顶出色，有好多示例可以匡助咱们更好地衔接它。

他们使用由以下函数生成的合成数据：

图片

界说模子

model = KAN(width=[2,5,1], grid=5, k=3, seed=0)

这里界说了三个参数：

宽度，其界说模样与多层感知器（MLP）访佛：一个列表，其中每个元素对应一个层，元素值是该层的宽度。在这种情况下，有三层；输入维度为2，有5个荫藏维度，输出维度为1

网格与B样条沟通，它刻画了数据点之间的网格可以有多清雅。加多这个参数可以创建更多迂回的函数。

k是B样条的多项式阶数，一般来说，三次弧线是个可以的聘请，因为三次弧线对样条有很好的属性。

seed，立地种子：样条的权重用高斯噪声立地入手化（就像在成例MLP中雷同）。

训练

model.train(dataset, opt="LBFGS", steps=20, lamb=0.01, lamb_entropy=10.0)

该库的API绝顶直不雅，咱们可以看到咱们正在使用LBFGS优化器，训练20步。接下来的两个参数与收罗的正则化沟通。

训练后的下一步是修剪模子，这会移除低于沟通性阈值的边和节点，完成后提议再行训练一下。然后将每个样条边调理为绚烂函数（log、exp、sin等）。这可以手动或自动完成。库提供了一个极好的器具，借助model.plot()手艺可以看到模子里面的情况。

# Code to fit symbolic functions to the fitted splinesif mode == "manual":    # manual mode    model.fix_symbolic(0, 0, 0, "sin")    model.fix_symbolic(0, 1, 0, "x^2")    model.fix_symbolic(1, 0, 0, "exp")elif mode == "auto":    # automatic mode    lib = ["x", "x^2", "x^3", "x^4", "exp", "log", "sqrt", "sin", "abs"]     model.auto_symbolic(lib=lib)

一朝在每个边上缔造了绚烂函数，就会进行最终的再训练，以确保每个边的仿射参数是合理的。

扫数这个词训练历程不才面的图表中总结。

图片

使用KAN进行绚烂追忆的示例。图片来自论文。

完整的训练代码如下所示：

# Define the modelmodel = KAN(width=[2, 5, 1], grid=5, k=3, seed=0)# First trainingmodel.train(dataset, opt="LBFGS", steps=20, lamb=0.01, lamb_entropy=10.0)# Prune edges that have low importancemodel = model.prune() # Retrain the pruned model with no regularisationmodel.train(dataset, opt="LBFGS", steps=50) # Find the symbolic functionsmodel.auto_symbolic(lib=["x", "x^2", "x^3", "x^4", "exp", "log", "sqrt", "sin", "abs"])# Find the afine parameters of the fitted functions without regularisationmodel.train(dataset, opt="LBFGS", steps=50) # Display the resultant equationmodel.symbolic_formula()[0][0] # Print the resultant symbolic function

一些念念考

模子中有相配多的超参数可以休养。这些可以产生绝顶不同的赶走。举例，在上头的示例中：将荫藏神经元的数目从5改为6意味着KAN找不到正确的函数。

在机器学习中，“超参数”（hyperparameters）是指那些在学习历程入手之前需要缔造的参数。这些参数收尾着训练历程的各个方面，但它们并不是通过训练数据自动学习得到的。超参数的缔造对模子的性能和遵守有着迫切的影响。

图片

由KAN[2,6,1]找到的赶走函数

这种变化性是预期的，因为这种架构是全新的。花了几十年时候，东谈主们才找到了休养MLP超参数（如学习率、批大小、入手化等）的最好模样。

论断

MLP如故存在很永劫候了，早该升级了。咱们知谈这种转变是可能的，苟简6年前，LSTMs在序列建模中无处不在，自后被transformers行为次序的话语模子架构构建块所取代。淌若MLP也能发生这种变化，那将是令东谈主喜跃的。另一方面，这种架构仍然不褂讪，而且运行成果并不是绝顶出色。时候将告诉咱们，否能找到一种手艺来绕过这种不褂讪性并开释KAN的果真后劲，好像KAN是否会被淡忘，成为机器学习的一个小学问点。

我对这种新架构感到绝顶喜跃管理系统开发价格，但我也执怀疑魄力。

本站仅提供存储劳动，扫数内容均由用户发布，如发现存害或侵权内容，请点击举报。

上一篇：管理系统开发要多少钱小饭店让司机拉客收100万元“罚单”，市监局：不是决定书，可请求复议

下一篇：管理系统开发要多少钱原本这即是高等出轨，看懂的齐是妙手，值得细细品尝。

栏目分类

热点资讯

管理系统开发价格 最近火到出圈的一篇数学论文，到底说了什么？为什么能掀翻海潮？

相关资讯

管理系统开发价格最近火到出圈的一篇数学论文，到底说了什么？为什么能掀翻海潮？