数学联邦政治世界观
超小超大

柏拉图表示假说 (13-2)

我们在 Figure 1. 中提出了我们的核心假设,即这种趋同确实有一个终点,并且有一个驱动它的原则:不同的模型都在尝试到达一个\textit{现实的表示},即对我们观察到的数据生成事件的联合分布的表示。Figure 1. 传达了这一假设:存在一个真实的世界(标记为Z ),我们用各种传感器测量它,例如左侧显示的相机 X 。这些测量的其他投影,如显示的文本描述,可以从第一组测量中生成,或者由其他测量集介导,例如触觉或其他视角的相机(虚线箭头从 X 到 Y )。[1]表示学习算法找到统计模型各种测量和投影的向量嵌入。生成的向量嵌入都是从 Z 的底层现实中派生出来的,因此变得一致。随着模型在更多数据和更多任务上的训练,它们需要捕捉越来越多关于 Z 的信息的表示,因此趋同点随着规模的增大而增加。

我们称这种趋同的假设表示为“柏拉图表示”,参考柏拉图的洞穴比喻(理想国第七章),以及他关于在我们的感官背后存在一个理想现实的理念。我们算法的训练数据是洞穴墙上的影子,但我们假设模型正在恢复越来越好的洞外真实世界的表示。这个想法并非柏拉图独有;我们的假设也与科学哲学中的“趋同现实主义”概念相关(即科学正在趋向真理),以及许多在表示学习文献中提出的论点。

与我们的假设密切相关的是 Bansal et al. (2021) 描述的“安娜·卡列尼娜情景”(Anna Karenina scenario),指所有表现良好的神经网络以相同方式表示世界的可能性。我们在第2节讨论了他们对此可能性提供的证据。[2][3]柏拉图表示假设指我们处于安娜·卡列尼娜情景(Anna Karenina scenario)并且“幸福的表示”(happy representation)是一个反映底层现实统计模型的表示。我们在第4节中更详细地讨论了这种统计模型的潜在性质。

表示正在趋同

初步

我们限制关注向量嵌入的表示。我们通过其诱导的相似性结构来表征这种表示,称之为其核函数(kernel)。核函数通常用于评估表示;这是因为它们捕捉了数据样本之间的相对结构,这也是许多机器学习算法的学习信号。根据文献,我们定义表示对齐(representational alignment)作为两个表示诱导的相似性结构的相似性的度量,即核函数上的相似性度量。下面给出这些概念的数学定义:

• 一个表示是一个函数 f:X → ℝⁿ,它为某个数据域 X 中的每个输入分配一个特征向量。

• 一个核函数 K:X × X → ℝ 表征一个表示如何测量数据点之间的距离/相似性。 K(xᵢ,xⱼ)=〈f(xᵢ),f(xⱼ)〉,其中 〈·,·〉 表示内积, xᵢ,xⱼ∈X ,且 K∈K 。

• 一个核对齐度量 m:K × K → ℝ 测量两个核函数之间的相似性,即一个表示诱导的距离度量与另一个表示诱导的距离度量的相似性。例子包括中心化核距离(CKA)、SVCCA和最近邻度量。

在我们的实验中,我们使用一种相互最近邻度量,它测量两个核函数 K₁ 和 K₂ 诱导的 k 个最近邻集的平均交集,归一化后得到 k 。这种度量是 Klabunde et al. (2023) 和 Oron et al. (2017) 提出的度量的变体。确切定义见附录A,其他对齐度量的比较见附录B。

接下来,我们探索表示趋同的几种方式。首先,我们认为不同的神经网络正趋同于一致的表示。然后,我们展示了这种趋势在模态之间的持续存在,即视觉模型中的图像嵌入与语言模型中的文本嵌入一致。

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

雪霞:花样诗情 连载中
雪霞:花样诗情
Crystal绘霞
从前的一些往事,凹凸设定
0.2万字1个月前
君知它意 连载中
君知它意
穆祠年
0.0万字4周前
奇思妙想合集 连载中
奇思妙想合集
阁主_
脑子突然想到的故事
2.6万字4周前
桃花劫:美男如此多娇 连载中
桃花劫:美男如此多娇
李朵儿
(已签约/已完结)慕无霜,西昌国太皇女,上面有七个哥哥,还有八个爹爹,什么干爹干娘的还不算,个个宠的不像话。从小因为她母亲的渲染,慕无霜小小......
12.1万字4周前
孟婆,请给我来碗汤 连载中
孟婆,请给我来碗汤
顾城柒少
孟婆的孟婆汤可以让人忘却前尘,包括美好的爱情月老的红线则是让有情终成眷属,至死不渝按理说,这两人应该毫无交集才对可是为什么在得知孟婆死讯的时......
30.7万字4周前
小怡的秘密宝库 连载中
小怡的秘密宝库
伽琦
记录一些好看的图片与经历
0.0万字4周前