数学联邦政治世界观
超小超大

数学视角下的transformer (3-1)

这篇论文来自MIT数学系,作者将Transformer视为一个连续时间的动力系统,模型的层级被视为时间变量。在这个框架下,Self-Attention和Layer Normalization是关键的部分。核心的发现是,随着时间的推移,模型中的元素(或称为粒子)会趋于聚集形成集群。这一集群现象在高维空间中尤为显著,并且与模型的学习能力密切相关。例如,在预测下一个词的任务中,集群现象表明模型可能趋向于预测少数几种可能性,而不是展现多样性......

油管上也有视频解读 /watch?...

一.聚集形成集群的数学解释

1. 动力系统与连续时间模型

首先,将变压器的层级视为时间变量,我们可以用一个连续时间动力系统来描述模型的行为。对于每个数据点(token),我们有如下的自注意力机制驱动的动态方程:

dxᵢ(t) 1 ₙ

──=Pₓᵢ₍ₜ₎ (── ∑ eβ⁽Qˣⁱ⁽ᵗ⁾,ᴷˣʲ⁽ᵗ⁾〉Vxⱼ(t))

dt Zᵦ,ᵢ(t) ⱼ₌₁

其中,() 是将向量投影到 () 的切平面上的投影算子, () 是归一化常数:

Zᵦ,ᵢ(t)=∑ eβ〈Qxᵢ(t),Kxₖ(t)〉

ₖ₌₁

2. 集群现象

集群现象是指随着时间的推移,粒子(数据点)在特征空间中趋于聚集。数学上,这可以用粒子之间的距离随时间趋于零来描述:

||xᵢ(t) – xⱼ(t)|| → 0 当 t → ∞, ∀i,j ∈ {1,2,. . .,n}

在高维空间中,当维度 ≥ 时,初始随机分布的粒子几乎肯定会全部位于一个开半球内。这种几何特性使得粒子更容易在较短时间内形成集群。

3. 预测下一个词的任务与多样性

在自然语言处理任务中,如预测下一个词的任务,集群现象反映了模型对特定输出的强偏好。例如,如果模型对一个给定输入句子的粒子迅速聚集到少数几个点,这意味着模型倾向于预测少数几个可能的下一个词。这种强烈的聚集现象可能导致模型缺乏多样性,即模型可能不会提供多种可能的输出,而是集中在少数几种预测上。这与实际应用中需要的多样性和不确定性相矛盾。

平稳分布与点质量

假设粒子最终收敛到一个点 ∗,则我们有:

xᵢ(t) → x* 当 t → ∞,∀i ∈ {1,2,. . .,n}

这种情况下,经验分布 ( , ) 最终会变为一个集中在 ∗ 处的Dirac delta函数:

μ(t,x) → δ(x – x*) 当 t → ∞

能量函数与收敛

变压器模型的动力系统可以视为一种能量下降过程。定义一个能量函数() :

1

Eᵦ(μ)=─ ∬eβ〈x,y〉dμ(x)dμ(y)

这个能量函数在动态系统中逐渐减小,粒子通过减少能量最终聚集:

(())

── ≤ 0

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

神父和他的后宫之主 连载中
神父和他的后宫之主
南风醉意
缺魂神父×缺德恶魔。神父在路边捡到了一位神秘男子,没想到是敌人。神秘男子隐姓埋名在神父身边
2.1万字1个月前
她娇弱动人 连载中
她娇弱动人
姜妩吖
娇弱动人,以夺取爱意为任务的女主…(三观没有,不喜勿看谢谢)
1.7万字4周前
女配修仙之远世 连载中
女配修仙之远世
遇喜
(第一次正经写文,也不知道咋样,将就看看吧,辣眼睛的话那就抱歉啦)女配不想逆袭,只想快点下线但别人偏不让她如愿最终飞升的被迫营业的故事•ᴗ•
3.7万字4周前
千古玦尘续写2 连载中
千古玦尘续写2
慕冉柚柠
“这世上真的有神明吗?”“对啊,这世上真的有神明吗?”“记住,这世上哪有永恒不变的爱,只有永恒的利益罢了”“不管你是什么,我定会护你周全,哪......
3.2万字4周前
拯救万人迷仙尊我我义不容辞 连载中
拯救万人迷仙尊我我义不容辞
小黄瓜培养液
【原创作品:美人师兄&戏精师弟】一朝穿越,他成了绝美仙尊的‘疯子’师弟,他忍不住欢喜,想要改变美人师兄在原著中的结局。为了保护美人师兄还有整......
2.6万字4周前
黑白棋生(鹤) 连载中
黑白棋生(鹤)
鹤鹤佳年
神族少主景澜生于权谋算计中,一生毁誉参半,她在黑白善恶间摇摆,被人景仰,也经历过世人的口诛笔伐。作为工具人的景澜,临危受命,束缚一生,救神族......
25.3万字4周前