我们在 Figure 1. 中提出了我们的核心假设,即这种趋同确实有一个终点,并且有一个驱动它的原则:不同的模型都在尝试到达一个\textit{现实的表示},即对我们观察到的数据生成事件的联合分布的表示。Figure 1. 传达了这一假设:存在一个真实的世界(标记为Z ),我们用各种传感器测量它,例如左侧显示的相机 X 。这些测量的其他投影,如显示的文本描述,可以从第一组测量中生成,或者由其他测量集介导,例如触觉或其他视角的相机(虚线箭头从 X 到 Y )。[1]表示学习算法找到统计模型各种测量和投影的向量嵌入。生成的向量嵌入都是从 Z 的底层现实中派生出来的,因此变得一致。随着模型在更多数据和更多任务上的训练,它们需要捕捉越来越多关于 Z 的信息的表示,因此趋同点随着规模的增大而增加。
我们称这种趋同的假设表示为“柏拉图表示”,参考柏拉图的洞穴比喻(理想国第七章),以及他关于在我们的感官背后存在一个理想现实的理念。我们算法的训练数据是洞穴墙上的影子,但我们假设模型正在恢复越来越好的洞外真实世界的表示。这个想法并非柏拉图独有;我们的假设也与科学哲学中的“趋同现实主义”概念相关(即科学正在趋向真理),以及许多在表示学习文献中提出的论点。
与我们的假设密切相关的是 Bansal et al. (2021) 描述的“安娜·卡列尼娜情景”(Anna Karenina scenario),指所有表现良好的神经网络以相同方式表示世界的可能性。我们在第2节讨论了他们对此可能性提供的证据。[2][3]柏拉图表示假设指我们处于安娜·卡列尼娜情景(Anna Karenina scenario)并且“幸福的表示”(happy representation)是一个反映底层现实统计模型的表示。我们在第4节中更详细地讨论了这种统计模型的潜在性质。
表示正在趋同
初步
我们限制关注向量嵌入的表示。我们通过其诱导的相似性结构来表征这种表示,称之为其核函数(kernel)。核函数通常用于评估表示;这是因为它们捕捉了数据样本之间的相对结构,这也是许多机器学习算法的学习信号。根据文献,我们定义表示对齐(representational alignment)作为两个表示诱导的相似性结构的相似性的度量,即核函数上的相似性度量。下面给出这些概念的数学定义:
• 一个表示是一个函数 f:X → ℝⁿ,它为某个数据域 X 中的每个输入分配一个特征向量。
• 一个核函数 K:X × X → ℝ 表征一个表示如何测量数据点之间的距离/相似性。 K(xᵢ,xⱼ)=〈f(xᵢ),f(xⱼ)〉,其中 〈·,·〉 表示内积, xᵢ,xⱼ∈X ,且 K∈K 。
• 一个核对齐度量 m:K × K → ℝ 测量两个核函数之间的相似性,即一个表示诱导的距离度量与另一个表示诱导的距离度量的相似性。例子包括中心化核距离(CKA)、SVCCA和最近邻度量。
在我们的实验中,我们使用一种相互最近邻度量,它测量两个核函数 K₁ 和 K₂ 诱导的 k 个最近邻集的平均交集,归一化后得到 k 。这种度量是 Klabunde et al. (2023) 和 Oron et al. (2017) 提出的度量的变体。确切定义见附录A,其他对齐度量的比较见附录B。
接下来,我们探索表示趋同的几种方式。首先,我们认为不同的神经网络正趋同于一致的表示。然后,我们展示了这种趋势在模态之间的持续存在,即视觉模型中的图像嵌入与语言模型中的文本嵌入一致。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。