数学联邦政治世界观
超小超大

数学函数 (2-1)

这篇文章主要探讨了层归一化(Layer Normalization, LN)的非线性及其表示能力。LN是深度学习中的一种标准化技术,其主要作用是稳定训练过程,提高模型的收敛速度和性能。作者从理论上证明了LN是一种非线性变换。文章通过定义“Sum of Squares Ratio (SSR)”及其线性不变下界“Linear SSR (LSSR)”,并展示了LN可以打破SSR的下界,从而证明了LN的非线性。

一.LN的基本原理和作用

标准化过程:

• LN对每一个样本的每一层的神经元进行标准化。具体来说,对于输入向量 (包含 个神经元的激活值),LN通过计算均值 和标准差 来进行标准化。 xᵢ – μ

标准化公式如下: ˆx=───,其中

1 d

=√─ ∑(xᵢ – μ)²

d ᵢ₌₁

LN通过可学习的参数 γ 和 β 进行缩放和平移

主要作用:

• 稳定训练过程:通过消除内部协变量偏移(Internal Covariate Shift),使得每一层的输入分布更加稳定,从而加速训练过程。

提高模型性能:LN使得模型在各种任务(如自然语言处理和计算机视觉)中表现更加稳定和高效,特别是在Transformer模型中,LN是不可或缺的组件。

适用于小批量或单样本训练:不同于Batch Normalization(BN),LN不依赖于批量样本的统计信息,因而在小批量或单样本训练中更为有效。

二.LN的非线性

非线性度证明:文章提出了统计量SSR(Sum of Squares Ratio),SSR衡量的是不同类别样本在欧氏空间中的可分离性。SSR越小,样本越容易被线性分离。当对样本进行线性变换时,SSR也会发生变化。定义样本在所有线性变换下对应的最小的SSR为LSSR,用于衡量样本在线性变换下的最小可分离性。文章指出,当LSSR越小时,样本之间的线性可分性越强。

任意可分性的证明:文章将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章称之为球面投影,是RMSNorm执行的操作)。作者以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。除了二分类文章还使用LN和线性层的组合对任意数目样本进行正确分类,研究了具备万能近似能力的LN-Net。通过构造算法步骤,将神经网络的逐层变换转换为同类样本合并问题,提出了PMA(projection merge algorithm)和PBA(parallelization breaking algorithm)。这一构造方法为计算神经网络的VC维也提供了新的思路。在此基础上,可以推断出有L个层标准化层的LN-Net,VC维至少有L+2。

三.LN非线性的利用

提高表示能力:

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

星山凤之追梦少年 连载中
星山凤之追梦少年
徐睿雪
“我,叫火凤凰,是星际医院的院长。”“我叫火星娃,是火星的火星国王。”“我叫金王子,是星际公安局的局长。”“我叫火山凤,是火星的奥运会冠军。......
5.4万字1个月前
黑白翻转 连载中
黑白翻转
静水边liar
与君初识,却似蓄谋已久。
0.1万字1个月前
仙恋凡缘 连载中
仙恋凡缘
星空下的一片云
本是不谙世事的天族公主,万千宠爱于一身,因三百年前丢失仙剑而下凡“陛下,你好狠的心啊”“难道你还没看清这人世间的情爱吗?”轮回一世又如何,不......
73.5万字1个月前
新葫:爷爷的宠爱 连载中
新葫:爷爷的宠爱
萌愿
“修炼者与普通人”和“同系与杂系”这两种不同道路上的人,偏偏共同出现在世界不被众人所知的地区,早已经过淬炼消失快三千年的女子,她的出现单单只......
19.8万字1个月前
星座,不负韶华 连载中
星座,不负韶华
羊崽崽a
以宇宙为背景,把所有的星球拟人化,主要讲的是十三星座的爱恨情仇,在宇宙中共有五大古族,现在早已销声匿迹,无多人知晓五大古族的人,五大古族分别......
26.1万字1个月前
快穿失败之后 连载中
快穿失败之后
山青花
谢秋作为一个时空管理员,维护着小世界的平衡,但是她现在面临一个问题,为什么当初又软又甜又粘人的小奶狗变成了毁天灭地的大反派,而且这个人还是她......
7.3万字1个月前