数学联邦政治世界观
超小超大

“维数灾难”数学原理 (3-3)

对于小维度,球的体积看起来相当“均匀”:但在高维中不是这样。

r •

R •

一个球壳

让我们考虑一个半径为R的n-球和另一个半径为R-dR的n-球,其中dR非常小。这两个球之间的部分称为“壳”,对应于靠近表面的球部分(见上图中的3D可视化)。我们可以计算球的“内”体积与薄壳体积的比率。

R=1,dr=0.05

0.8 -

0.6 -

体积

0.4 -

0.2 ⁻

0.0 ⁻

0

20

40

60

80

100

尺寸

随着维数n增加的比率(内体积/总体积)(作者制作的图片)

如我们所见,它迅速收敛到0:在高维空间中,几乎所有的体积都集中在表面附近。例如,对于R=1,dR=0.05 和 n=50,大约 92.3% 的体积集中在薄壳中。这表明在高维中,体积集中在“角落”中。这再次与我们之前看到的距离概念的扭曲有关。

请注意,单位超立方体的体积(这里表示一个边长为2的零中心立方体)是[公式]。在非常高维中,单位球基本上是“空的”,而单位超立方体相反,获得了指数级更多的点。这再次表明,当n很大时,“最近邻居”的概念失去了效力,因为几乎没有点在查询点q的距离R内。

维数灾难、过拟合和奥卡姆剃刀

维数灾难与过拟合原则密切相关。由于空间体积随维度的指数级增长,我们需要非常大的数据集来充分捕捉和建模高维模式。更糟糕的是,我们需要的样本数量随维度呈指数级增长以克服这一限制。这种特征多但数据点相对较少的情况尤其容易导致过拟合。

奥卡姆剃刀建议,较简单的模型通常比复杂的模型更好,因为它们不太可能过拟合。这一原则在高维情况下尤为重要(维数灾难发挥作用),因为它鼓励减少模型复杂性。

在高维情况下应用奥卡姆剃刀原则可能意味着减少问题本身的维度(通过如PCA、特征选择等方法),从而减轻维数灾难的一些影响。简化模型结构或特征空间有助于管理稀疏数据分布并使距离度量再次有意义。例如,降维是应用kNN算法之前非常常见的预处理步骤。最近的方法,如近似最近邻(ANNs),也作为处理高维情况的方法出现。

维度的祝福?

图片来源:Dall-E

虽然我们概述了机器学习中高维设置的挑战,但也有一些优势!

• 高维度可以增强线性可分性,使得如核方法更有效。

• 此外,深度学习架构特别善于在高维空间中导航和提取复杂模式。

正如机器学习中常见的,这是一个权衡:利用这些优势需要平衡增加的计算需求与模型性能的潜在提升。

结论

希望这能让你了解高维几何是多么“奇怪”,以及它对机器学习模型开发带来的许多挑战。我们看到,在高维空间中,数据非常稀疏,但也倾向于集中在角落,距离失去了意义。

虽然“维数灾难”概述了高维空间中的显著限制,但令人兴奋的是,现代深度学习模型在越来越擅长于导航这些复杂性。例如,嵌入模型或最新的LLM使用非常高维的向量来更有效地识别和建模文本模式。

注意:任何章节均无图片内容资源!

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

闲暇随记 连载中
闲暇随记
溯屿陌
随便写写
0.8万字4周前
快穿之他被万人所爱 连载中
快穿之他被万人所爱
少年兰司
戏班子正是登台唱戏的热闹时刻,旦角婉转地唱着《西厢记》的缠绵唱词,与那张生甜蜜地幽会着,神色哀怨又含情。京城里人人都知道这戏班子里有一位出名......
3.5万字4周前
狂妃在上:腹黑帝尊日夜宠 连载中
狂妃在上:腹黑帝尊日夜宠
墨倾屿
夜澜默:“染儿,抱抱”苏染漓:“有这么黏人的老公怎么办?”
14.7万字4周前
顾晏 连载中
顾晏
硕凌
双男主、双女主,爱情线,科幻文
0.4万字4周前
快穿:求生欲教我不做人 连载中
快穿:求生欲教我不做人
该用户已注销
【已签约】她江舒乃是那在商业界能一手遮天而行事果断还分分钟几百万上下的总裁……江谷的小女儿。结果就在晚会上,死于了自己穿不习惯的高跟鞋。死后......
7.8万字4周前
随身空间:重生之末世来袭 连载中
随身空间:重生之末世来袭
南岸少年~凯少
夏紫涵。拥有无数家公司的背后大BOSS还有一个另无数人吓破胆的杀手身份。有朝一日末世来临,亲人的背叛,朋友的冷眼相待在,身体被废,造就了冷漠......
1.4万字4周前