对于小维度,球的体积看起来相当“均匀”:但在高维中不是这样。
r •
∠
R •
一个球壳
让我们考虑一个半径为R的n-球和另一个半径为R-dR的n-球,其中dR非常小。这两个球之间的部分称为“壳”,对应于靠近表面的球部分(见上图中的3D可视化)。我们可以计算球的“内”体积与薄壳体积的比率。
R=1,dr=0.05
0.8 -
0.6 -
体积
0.4 -
0.2 ⁻
0.0 ⁻
0
20
40
60
80
100
尺寸
随着维数n增加的比率(内体积/总体积)(作者制作的图片)
如我们所见,它迅速收敛到0:在高维空间中,几乎所有的体积都集中在表面附近。例如,对于R=1,dR=0.05 和 n=50,大约 92.3% 的体积集中在薄壳中。这表明在高维中,体积集中在“角落”中。这再次与我们之前看到的距离概念的扭曲有关。
请注意,单位超立方体的体积(这里表示一个边长为2的零中心立方体)是[公式]。在非常高维中,单位球基本上是“空的”,而单位超立方体相反,获得了指数级更多的点。这再次表明,当n很大时,“最近邻居”的概念失去了效力,因为几乎没有点在查询点q的距离R内。
维数灾难、过拟合和奥卡姆剃刀
维数灾难与过拟合原则密切相关。由于空间体积随维度的指数级增长,我们需要非常大的数据集来充分捕捉和建模高维模式。更糟糕的是,我们需要的样本数量随维度呈指数级增长以克服这一限制。这种特征多但数据点相对较少的情况尤其容易导致过拟合。
奥卡姆剃刀建议,较简单的模型通常比复杂的模型更好,因为它们不太可能过拟合。这一原则在高维情况下尤为重要(维数灾难发挥作用),因为它鼓励减少模型复杂性。
在高维情况下应用奥卡姆剃刀原则可能意味着减少问题本身的维度(通过如PCA、特征选择等方法),从而减轻维数灾难的一些影响。简化模型结构或特征空间有助于管理稀疏数据分布并使距离度量再次有意义。例如,降维是应用kNN算法之前非常常见的预处理步骤。最近的方法,如近似最近邻(ANNs),也作为处理高维情况的方法出现。
维度的祝福?
图片来源:Dall-E
虽然我们概述了机器学习中高维设置的挑战,但也有一些优势!
• 高维度可以增强线性可分性,使得如核方法更有效。
• 此外,深度学习架构特别善于在高维空间中导航和提取复杂模式。
正如机器学习中常见的,这是一个权衡:利用这些优势需要平衡增加的计算需求与模型性能的潜在提升。
结论
希望这能让你了解高维几何是多么“奇怪”,以及它对机器学习模型开发带来的许多挑战。我们看到,在高维空间中,数据非常稀疏,但也倾向于集中在角落,距离失去了意义。
虽然“维数灾难”概述了高维空间中的显著限制,但令人兴奋的是,现代深度学习模型在越来越擅长于导航这些复杂性。例如,嵌入模型或最新的LLM使用非常高维的向量来更有效地识别和建模文本模式。
注意:任何章节均无图片内容资源!
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。