数学视角下的transformer (3-1)

好书推荐：数学联邦政治世界观、万人迷被强制爱的日常、惊世狂妃：皇叔一宠到底、高冷冥夫宠上身、潜执CP（自创版）、穿书炮灰女配要修仙、万人迷omega被疼爱了、黑化徒弟萌宠师、我的神宠、幻境：多元宇、

这篇论文来自MIT数学系，作者将Transformer视为一个连续时间的动力系统，模型的层级被视为时间变量。在这个框架下，Self-Attention和Layer Normalization是关键的部分。核心的发现是，随着时间的推移，模型中的元素（或称为粒子）会趋于聚集形成集群。这一集群现象在高维空间中尤为显著，并且与模型的学习能力密切相关。例如，在预测下一个词的任务中，集群现象表明模型可能趋向于预测少数几种可能性，而不是展现多样性......

油管上也有视频解读 /watch?...

一.聚集形成集群的数学解释

1. 动力系统与连续时间模型

首先，将变压器的层级视为时间变量，我们可以用一个连续时间动力系统来描述模型的行为。对于每个数据点（token），我们有如下的自注意力机制驱动的动态方程：

dxᵢ(t) 1 ₙ

──＝Pₓᵢ₍ₜ₎ (── ∑ eβ⁽Qˣⁱ⁽ᵗ⁾，ᴷˣʲ⁽ᵗ⁾〉Vxⱼ(t))

dt Zᵦ，ᵢ(t) ⱼ₌₁

其中，() 是将向量投影到 () 的切平面上的投影算子， () 是归一化常数：

ₙ

Zᵦ，ᵢ(t)＝∑ eβ〈Qxᵢ(t)，Kxₖ(t)〉

ₖ₌₁

2. 集群现象

集群现象是指随着时间的推移，粒子（数据点）在特征空间中趋于聚集。数学上，这可以用粒子之间的距离随时间趋于零来描述：

||xᵢ(t) – xⱼ(t)|| → 0 当 t → ∞， ∀i，j ∈ {1，2，. . .，n}

在高维空间中，当维度 ≥ 时，初始随机分布的粒子几乎肯定会全部位于一个开半球内。这种几何特性使得粒子更容易在较短时间内形成集群。

3. 预测下一个词的任务与多样性

在自然语言处理任务中，如预测下一个词的任务，集群现象反映了模型对特定输出的强偏好。例如，如果模型对一个给定输入句子的粒子迅速聚集到少数几个点，这意味着模型倾向于预测少数几个可能的下一个词。这种强烈的聚集现象可能导致模型缺乏多样性，即模型可能不会提供多种可能的输出，而是集中在少数几种预测上。这与实际应用中需要的多样性和不确定性相矛盾。

平稳分布与点质量

假设粒子最终收敛到一个点 ∗，则我们有：

xᵢ(t) → x* 当 t → ∞，∀i ∈ {1，2，. . .，n}

这种情况下，经验分布 ( , ) 最终会变为一个集中在 ∗ 处的Dirac delta函数：

μ(t，x) → δ(x – x*) 当 t → ∞

能量函数与收敛

变压器模型的动力系统可以视为一种能量下降过程。定义一个能量函数() ：

Eᵦ(μ)＝─ ∬eβ〈x，y〉dμ(x)dμ(y)

2β

这个能量函数在动态系统中逐渐减小，粒子通过减少能量最终聚集：

(())

── ≤ 0