柏拉图表示假说_数学联邦政治世界观()

柏拉图表示假说 The Platonic Representation Hypothesis

柏拉图表示假设

Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola

麻省理工学院

联系人: Minyoung Huh (minhuh@)

关键词: 机器学习, 表示, 人工智能, 多模态

译者：GPT-4o

摘要

我们认为AI模型，特别是深度网络中的表示正在趋同。首先，我们调查了文献中的许多趋同例子：随着时间的推移和跨多个领域，不同神经网络表示数据的方式越来越趋于一致。接着，我们展示了跨数据模态的趋同：随着视觉模型和语言模型的规模增大，它们测量数据点之间距离的方式越来越相似。我们假设这种趋同正在朝着一个共享的统计模型发展，类似于柏拉图的理想现实概念。我们将这种表示称为柏拉图表示，并讨论几种可能的选择压力。最后，我们讨论这些趋势的影响、局限性以及我们分析的反例。

项目页面: phillipi./prh

代码: /minyoungg/platonic-rep

引言

AI系统正在迅速发展成高度多功能的实体。例如，过去我们针对不同的语言处理任务（如情感分析、解析、对话）有专门的解决方案，而现代的大型语言模型（LLMs）使用一组权重就能胜任所有这些任务。跨数据模态的统一系统也在构建：最近的模型如GPT4-V、Gemini和LLaVA，使用结合架构处理图像和文本。越来越多的系统建立在通用预训练骨干模型基础上，这些模型支持广泛的任务，包括机器人、生物信息学和医疗。简言之，AI系统在架构和能力上变得越来越同质化。

柏拉图表示假设：神经网络在不同目标和不同数据模态下训练，正在趋同到一个共享的统计模型在其表示空间中的表现。

X ↙ ↘

⇣

→ Y

A red sphere next to a blue cone.

↓ ↓

▯ ▯

柏拉图表示假设：图像(X) 和文本 (Y) 是共同底层现实 (Z) 的投影。我们推测表示学习算法将趋同于 Z 的共享表示，并且模型规模、数据和任务多样性的扩大推动了这种趋同。

本文探讨了这一趋势的一个方面：表示趋同。我们认为在不同神经网络模型中，数据点表示的相似性在不断增加。这种相似性跨越了不同的模型架构、训练目标，甚至是数据模态。

是什么导致了这种趋同？它会继续吗？最终，它会达到什么程度？

我们在 Figure 1. 中提出了我们的核心假设，即这种趋同确实有一个终点，并且有一个驱动它的原则：不同的模型都在尝试到达一个\textit{现实的表示}，即对我们观察到的数据生成事件的联合分布的表示。Figure 1. 传达了这一假设：存在一个真实的世界（标记为Z ），我们用各种传感器测量它，例如左侧显示的相机 X 。这些测量的其他投影，如显示的文本描述，可以从第一组测量中生成，或者由其他测量集介导，例如触觉或其他视角的相机（虚线箭头从 X 到 Y ）。[1]表示学习算法找到统计模型各种测量和投影的向量嵌入。生成的向量嵌入都是从 Z 的底层现实中派生出来的，因此变得一致。随着模型在更多数据和更多任务上的训练，它们需要捕捉越来越多关于 Z 的信息的表示，因此趋同点随着规模的增大而增加。

我们称这种趋同的假设表示为“柏拉图表示”，参考柏拉图的洞穴比喻（理想国第七章），以及他关于在我们的感官背后存在一个理想现实的理念。我们算法的训练数据是洞穴墙上的影子，但我们假设模型正在恢复越来越好的洞外真实世界的表示。这个想法并非柏拉图独有；我们的假设也与科学哲学中的“趋同现实主义”概念相关（即科学正在趋向真理），以及许多在表示学习文献中提出的论点。

与我们的假设密切相关的是 Bansal et al. (2021) 描述的“安娜·卡列尼娜情景”（Anna Karenina scenario），指所有表现良好的神经网络以相同方式表示世界的可能性。我们在第2节讨论了他们对此可能性提供的证据。[2][3]柏拉图表示假设指我们处于安娜·卡列尼娜情景（Anna Karenina scenario）并且“幸福的表示”（happy representation）是一个反映底层现实统计模型的表示。我们在第4节中更详细地讨论了这种统计模型的潜在性质。

表示正在趋同

初步

我们限制关注向量嵌入的表示。我们通过其诱导的相似性结构来表征这种表示，称之为其核函数（kernel）。核函数通常用于评估表示；这是因为它们捕捉了数据样本之间的相对结构，这也是许多机器学习算法的学习信号。根据文献，我们定义表示对齐（representational alignment）作为两个表示诱导的相似性结构的相似性的度量，即核函数上的相似性度量。下面给出这些概念的数学定义：

• 一个表示是一个函数 f：X → ℝⁿ，它为某个数据域 X 中的每个输入分配一个特征向量。

• 一个核函数 K：X × X → ℝ 表征一个表示如何测量数据点之间的距离/相似性。 K(xᵢ，xⱼ)＝〈f(xᵢ)，f(xⱼ)〉，其中〈·，·〉表示内积， xᵢ，xⱼ∈X ，且 K∈K 。

• 一个核对齐度量 m：K × K → ℝ 测量两个核函数之间的相似性，即一个表示诱导的距离度量与另一个表示诱导的距离度量的相似性。例子包括中心化核距离（CKA）、SVCCA和最近邻度量。

在我们的实验中，我们使用一种相互最近邻度量，它测量两个核函数 K₁ 和 K₂ 诱导的 k 个最近邻集的平均交集，归一化后得到 k 。这种度量是 Klabunde et al. (2023) 和 Oron et al. (2017) 提出的度量的变体。确切定义见附录A，其他对齐度量的比较见附录B。

接下来，我们探索表示趋同的几种方式。首先，我们认为不同的神经网络正趋同于一致的表示。然后，我们展示了这种趋势在模态之间的持续存在，即视觉模型中的图像嵌入与语言模型中的文本嵌入一致。

趋同于一般能力

0.40-

0.35 -

铲斗内对准

0.30 -

0.25-

0.20 -

0.15-

0.10-

0.05 -

0.00 -

0-20% 0-40% 0-60% 0-80% 0-100%

已解决VTAB任务的百分比c(总数=19)

模型表示UMAP

已解决的VTAB任务数

19 -

16 -

12 -

8 -

4 -

△随机初始化

♢分类

✚Mae

●对比的

★夹子

图2.视觉模型随着能力的提高而收敛：

随着能力提升，视觉模型趋同：我们使用相互最近邻在Places-365数据集上测量了78个模型的对齐情况，并评估它们在视觉任务适应基准（VTAB）中下游任务的表现。左图：解决更多VTAB任务的模型之间更趋同。误差条显示标准误差。右图：我们使用UMAP将模型嵌入到二维空间，基于 ≜ – log(alignment)。更通用和强大的模型（蓝色）有更相似的表示。

不同架构和目标的模型可以有一致的表示

表示趋同的一个迹象是建立在预训练基础模型上的系统数量的增加。这些模型正成为越来越多任务的标准骨干。它们在众多应用中的多功能性意味着它们表示数据的方式具有一定的普遍性。

尽管这一趋势表明趋向于相对少数基础模型，但这并不意味着不同基础模型将达到相同的表示。然而，几篇近期的论文表明确实如此。

Lenc & Vedaldi (2015) 进行了一项研究，他们通过一种称为模型缝合 (model stitching) 的技术来测量表示相似性。给定两个模型， f 和 g ，每个由多个层组成 f＝f₁◦· · ·◦fₙ g＝g₁◦· · ·◦gₘ ，从 f 中的一个中间表示通过一个学习到的仿射缝合层 h 整合到 g 中，产生一个新的缝合模型 F＝f₁◦· · ·◦fₖ◦h◦gₖ₊₁◦· · ·◦gₘ 。如果 F 表现良好，这表明 f 和 g 在第 k 层具有兼容的表示，直到变换 h 。

在他们的研究中，Lenc & Vedaldi (2015) 得出了两个显著的发现：（1）一个在ImageNet上训练的视觉模型可以与在Places-365数据集上训练的模型对齐，同时保持良好的性能；（2）这些卷积网络的早期层比后期层更可互换。第一个发现表明，在不同的图像数据集上，表示的独立性达到了一个层次。第二个发现与广泛的研究一致，即定向Gabor-like滤波器在人工和生物视觉系统中都很常见。这表明各种神经网络架构趋同于相似的初始层表示。扩展了模型缝合的概念，发现使用自监督目标训练的模型与其监督对应物紧密对齐。

Moschella et al. (2022) 进一步证明了无需学习缝合层的“零样本”模型缝合的可行性。尽管不同的文本模型在不同的模态上训练，他们发现模型通常以惊人相似的方式嵌入数据。特别是，他们考虑了由学习表示定义的核K ，并展示了 K 作为模型之间的桥梁，使得在一种语言（如英语）上训练的编码器能够有效地与另一种语言（如法语）的解码器配合。

Dravid et al. (2023) 将这一想法扩展到个别神经元，发现“罗塞塔神经元”（Rosetta Neurons）在一系列视觉模型中被相同模式激活。这些神经元构成了所有模型独立发现的共同字典。

010+

iTzaNebel

ZAONIg01JUaWUBIY

0.16

3VW

0.14

BoE

01 02

0.12

016

D.20-

(y xZtI)dno

Dino small

0年

0.10

dino small

dino base

dino large

dino giant

0.2

0.4

0.5

01 02 03

0.4

语言表现

图三.fiqure3.语言和VISION模型协调一致

语言和视觉模型对齐：我们使用相互最近邻在Wikipedia图片描述数据集（WIT）上测量对齐情况。x轴是语言模型在OpenWebText数据集上4M标记的表现（见附录B中的模型名称图表）。我们使用 1–bits–per–byte 测量表现，其中 bits–per–byte 按输入文本字符串的总字节数归一化交叉熵。结果显示语言-视觉对齐和语言建模评分之间的线性关系，普遍趋势是能力越强的语言模型与能力越强的视觉模型对齐越好。我们发现，经过显式语言监督训练的CLIP模型表现出较高的对齐水平。然而，经过ImageNet分类微调后（标记为CLIP (I12K ft)），这种对齐水平下降。

对齐随规模和性能增加

Kornblith et al. (2019) 观察到模型对齐不仅存在，而且随着模型规模的增加而增加。在CIFAR-10分类中，他们发现较大的模型比较小的模型表现出更高的对齐度。理论上，Balestriero & Baraniuk (2018) 表明具有相似输出的模型（例如，由于性能较高）也具有相似的内部激活。随着模型规模持续增长，这表明模型对齐将随着时间增加——我们可能会预期下一代更大、更好的模型会更彼此对齐。

我们通过评估78个视觉模型的迁移性能来扩展这一观察。这些模型使用不同的架构、训练目标和数据集进行训练（详细信息见 Appendix C.1). ）。在 Figure 2 (左)中，我们根据它们在VTAB数据集上的平均迁移性能对这些模型进行分箱，然后测量每个分箱内模型的平均核对齐度。结果表明，高迁移性能的模型形成了紧密聚类的表示集，而性能较弱的模型具有更可变的表示。我们进一步使用UMAP对模型表示进行可视化，如 Figure 2（右）所示。这表明，能力强的模型以相似的方式表示数据。响应 Bansal et al. (2021) 和 Tolstoy (1877)，我们可以说：所有强模型都是相似的，每个弱模型各有各的弱点。

目前的讨论表明，各种模型正在向统一的表示趋同。但这种趋同是否延伸到模型权重？虽然具有不同架构的模型可能没有兼容的权重空间，但有大量证据表明具有相同架构的模型通常会趋同到相同的权重盆地（basin of weights）。即使是具有不同初始化的模型，也能趋同到权重空间的置换上。因此，可以将具有相同架构的分别训练的模型合并，并实现混合中所有模型的一些能力。

在GSM8K上的性能(5张照片)

lla3-70b

0.8 -

0.6 -

mixial-8x7b

gemma-7b

ima3-8b

llama-65b

0.4

mistral-7b

LAN ha-33b

0.2 -

Gemma·2b

ma-13b

ama-7b

penllama-13bl lmo.7b

Bloom-1.7b Bloom-3b

penllama-7b

olmo-1b

Bloom-560m

Bloom-7.1b

0.0-

Bloom-1.1b

openllama-3b

0.16

0.18

0.22

0.24

0.20

0.26

0.14

对准VISION(DINOv2)

llama3-70b

0.701

混合的

赫拉斯瓦格

骆马·33

0.65

llama-65b

西北风-7b

na-1db iamae.8b

0.60 -

宝石-

ama-7b

lmo-7b

penllama-13b

0.55 -

上的性能

gemma-2b

penllama-7b

0.50

openllama-3b

olmo-1b

Bloom-7.1b

0.45 -

Bloom-3b

0.40 -

Bloom-1.7b

0.35 -

Bloom-1.1b

Bloom-560m

0.30 -

0.14

0.16

0.18

0.20

0.22

0.24

0.26

对准VISION(DINOv2)

图4.对齐预测下游性能

对齐预测下游性能：我们可视化了LLM对DINOv2的对齐得分与Hellaswag~（常识）和GSM8K~（数学）下游任务表现之间的相关性。LLMs的半径与模型大小成比例，并按语言建模分数的排名顺序 1 – bits–per–byte 进行颜色编码。我们观察到与视觉模型更紧密对齐的模型在下游语言任务中表现更好。对于Hellaswag，对齐得分和表现之间存在线性关系，而GSM8K则展示了“涌现”趋势。

表示正在跨模态趋同

不同数据模态训练的模型是否也在趋同？几项研究表明答案是肯定的。

Merullo et al. (2022) 将模型缝合扩展到跨模态设置，发现单个线性投影就足以将视觉模型与LLM缝合，并在视觉问答和图像描述任务上取得良好表现。Koh et al. (2023) 显示线性缝合也可以反向工作，将文本输入对齐到视觉输出。实际上，许多最新的语言-视觉模型都是通过缝合预训练的语言和视觉模型来实现的。例如，LLaVA通过使用两层MLP将视觉特征投影到语言模型中，展示了最先进的结果。

其他研究显示了跨模态协同作用的进一步证据。Achiam et al. (2023) 发现联合训练语言模型和视觉模型比单独训练语言模型在语言任务上表现更好。Sharma et al. (2024) 通过将图像转换为LLM可以处理的代码，探测了仅在语言数据上训练的LLMs的视觉知识。他们发现LLMs对视觉结构有丰富的知识，以至于可以通过查询LLM生成代码并渲染响应来在图像上训练出不错的视觉表示。在视觉生成方面，LLMs展示了通过视觉结构（例如，边界框和位置）增强描述和改进生成质量的能力。在其他模态中，Ngo & Kim (2024) 显示听觉模型也可以通过线性变换大致对齐到语言模型，Ng et al. (2023) 证明了使用预训练语言模型进行面部动作预测的有效性。

我们着手在更广泛的范围内验证这些主张，以确定模型是否确实在学习一种越来越模态无关的世界表示。我们抽取了仅在视觉或语言上训练的各种模型，比较它们在许多任务上变得更大和更有能力后的表示。

在 Figure 3 中，我们评估了一组语言模型和视觉模型之间的对齐情况。目前我们仅定义了在相同输入空间上定义的两个核函数的对齐。为了测量跨模态对齐，我们使用配对数据集来连接这两种模态。对于视觉和文本，我们使用Wikipedia图片描述数据集(xᵢ，yᵢ)i ，该数据集由Wikipedia的图像 (xᵢ) 及其对应的描述 (yᵢ) 组成。然后我们测量语言模型 ftext 和视觉模型 fᵢₘg 的对齐情况，作为以下两个核函数的对齐： Kᵢₘg(i，j)＝〈fᵢₘg(xᵢ)，fᵢₘg(xⱼ)〉

Kₜₑₓₜ(i，j)＝〈fₜₑₓₜ(yᵢ)，fₜₑₓₜ(yⱼ)〉.

通过这种分析，我们发现LLM在语言建模方面表现越好，它与视觉模型的对齐程度越高，如 Figure 3. 所示。反过来也成立：视觉模型表现越好，它与LLM的对齐程度越高。更多详情见 Appendix C.2。

模型正越来越多地对齐到大脑

神经网络还显示出与大脑生物表示的显著对齐。这种共性可能是由于两者面对的任务和数据约束的相似性。尽管媒介不同——硅晶体管与生物神经元——大脑和机器面临的基本问题是相同的：有效地提取和理解图像、文本、声音等的底层结构。通过进化，人类视觉系统精炼以执行的任务——如分割、检测和全图分类——也是我们训练神经网络执行的任务。Yamins et al. (2014) 甚至以任务表现为标题，暗示这些任务的表现意味着大脑对齐。此外，Conwell et al. (2022) 表明训练数据在对齐中起着重要作用。心理物理学研究还显示出人类感知视觉相似性和模型感知方式之间的一致性，即使这些模型训练在看似与模仿人类感知无关的任务上，如自监督预测。

对齐是否预测下游表现？

如果模型正在趋向更准确的现实表示，我们预计对齐应该对应于下游任务的改进表现。Figure 4 支持这一假设，展示了在常识推理（Hellaswag）和数学问题解决（GSM8K）上，随着对齐的改善，表现有所提升。

为什么表示趋同？

现代机器学习模型通常通过可能的隐式和/或显式正则化来最小化经验风险：

trained model training objective

⊓ ⊓

f*＝arg min f∈F𝔼 x~dataset[Ը(f，x)]＋R(f)

functionclass ⊔

Hypothesis

space 2

✫ Hypothesis

Loss ✫ ★ space 2

Hypothesis

space 1 Hypothesis

– Scale up → space 1

architectures

图5.容量假设

容量假设：如果在函数空间中存在一个最优表示，则较大的假设空间更可能覆盖它。左：两个小模型可能无法覆盖最优值，从而找到不同的解决方案（由轮廓☆标记）。右：随着模型变大，它们覆盖最优值并收敛到相同的解决方案（由填充⋆标记）。

假设空间

任务梯度

↘↓↙

解决任务1

↘

→ 解决任务2

↗

任务梯度

图6.多任务扩展假设

多任务扩展假设：随着任务数量的增加，训练的模型承受压力，学习一种可以解决所有任务的表示。

通过任务普遍性的趋同

每个训练数据点和目标（任务）都会对模型施加额外的约束。随着数据和任务的扩展，满足这些约束的表示体积必须按比例变小，如图 Figure 6 所示并在下方阐述：

多任务扩展假设：适用于N 个任务的表示比适用于 M＜N 个任务的表示要少。当我们训练能够一次解决更多任务的通用模型时，我们应该预期可能的解决方案会更少。

Cao & Yamins (2024) 之前将此称为逆变原则，指出一个简单目标的解决方案集合是大的，而一个具有挑战性目标的解决方案集合则相对较小。此外，我们认为这个更狭窄的解决方案集也具有更好的泛化能力。随着数据规模的扩大，优化经验风险 𝔼x ~ dₐₜₐₛₑₜ[Ը(f，x)] 的模型在总体风险 𝔼x ~ ᵣₑₐₗᵢₜy[Ը(f，x)] 上也会有所改进，并且在捕捉真实数据生成过程 reality 的统计结构方面表现更好。

最近的工作展示了数据规模与模型性能之间的幂律关系。这意味着在足够的数据下（例如，包括整个互联网和所有离线科学测量），应该趋同于一个具有不可约误差的非常小的解决方案集——这是世界固有的认知不确定性。随着更多模型在互联网规模的数据上进行训练，满足所有数据约束的解决方案集必须变得相对较小。

除了数据扩展，许多现代表示学习目标Ը(f，x) 直接优化多任务求解。对比学习在数据样本上找到一个距离结构，以优化许多分类任务。掩码自编码器优化随机抽样的重建任务。事实上，自回归语言建模也可以看作是优化多样的任务集。由于这些多任务目标对表示施加了更多任务约束，从而导致更小且质量更高的解决方案空间，它们可能比单任务目标（例如ImageNet分类）更有效。

通过模型容量的趋同

假设标准学习目标下存在一个全局最优表示。那么，在足够的数据下，扩展模型（即使用更大的函数类 F 以及应该更有效地找到这个最优的更好近似，如 Figure 5. 所示。在相同的训练目标下，即使是不同架构的更大模型，也倾向于趋向于这个最优值。当不同的训练目标共享相似的最小化器时，更大的模型更善于找到这些最小化器，并且将在训练任务上趋向于相似的解决方案。我们总结如下假设：

容量假设：更大的模型比更小的模型更可能趋向于共享表示。

通过的趋同

在训练数据上到达相同的映射并不妨碍模型开发不同的内部表示。不难假设，一个拥有100万参数的模型用来检测狗的表示可能与一个拥有10亿参数的模型所用的表示截然不同。那么，是什么阻止了一个拥有十亿参数（甚至更多）的模型学习一个过于复杂和独特的表示？一个关键因素可能是简单性偏见：

简单性偏见假设：深度网络倾向于找到对数据的简单拟合，并且模型越大，这种偏见越强。因此，随着模型变大，我们应该预期它们趋同于一个更小的解决方案空间。

这种简单性偏见可能来自深度学习中常用的显式正则化（例如权重衰减和dropout）。然而，即使没有外部影响，深度网络也自然遵循奥卡姆剃刀，以拟合数据。Figure 7 展示了简单性偏见如何驱动趋同。

假设空间

简单性偏差

↓

↓ 解决任务的函数

↓

简单的功能 ←←← 简单性偏差

图8.视觉和语言中的颜色共现产生感知组织

简单性偏见假设：更大的模型覆盖所有可能拟合相同数据的方法范围更大。然而，深度网络的隐式简单性偏见鼓励更大的模型找到这些解决方案中最简单的。

我们趋向于何种表示？

到目前为止，我们希望已经说服读者，任务和数据压力，结合不断增加的模型容量，可以导致趋同。接下来，我们将注意力转向究竟这种趋同的终点是什么。

我们在 Figure 1 中提出的核心假设是，我们趋向的表示是生成我们观测数据的底层现实的统计模型。与多任务扩展假设一致，这种表示自然对许多任务有用（或至少对任何基于现实的任务有用）。此外，假设科学家们关于自然基本规律确实是简单函数的建议是正确的，那么这种表示可能相对简单，这与简单性偏见假设一致。

但我们究竟所说的“底层现实的统计模型”是什么意思。在本节中，我们用具体的数学陈述对这一定义进行形式化。重要的是，本节应被视为柏拉图表示形式的一个具体候选者；其他候选者可能来自其他建模假设。

一个理想化的世界

我们考虑一个如下运作的世界，与 Figure 1. 中的示意图一致。这个世界由一系列离散事件T 组成，表示为 Z ≜ [z₁，. . .，zᴛ] ，从某个未知分布 ℙ(Z) 中采样。每个事件可以通过各种方式观测到。一个观测是一个双射的确定性函数 obs：/Z ，将事件映射到一个任意的测量空间，如像素、声音、质量、力、扭矩、词等。在第6节中，我们讨论了可能反映真实学习场景的连续和无界世界以及随机观测的局限性和潜在扩展。

注意：Z是切的/Z，因为无法找出符号！

可以将事件看作某个时间点的世界状态[4]，但仅将事件视为任何索引观测的变量也未尝不可，而无需进一步的物理意义[5]。我们可以说观测索引的联合分布本身就是柏拉图的现实。

在这个理想化的世界中，了解ℙ(Z) 对许多种预测是有用的；这将构成对导致我们观测的事件的世界模型。接下来我们将展示某些对比学习者是如何恢复ℙ(Z) 的特定表示的。

人类感知的感知

来自Bxef的视觉

语言从蒙版语言对比学习(SimCSE)

from屏蔽语言预测学习(罗伯塔)

逐点互信息

图8.视觉和语言中的颜色共现产生感知组织

视觉和语言中的颜色共现产生知觉组织：相似的颜色表示通过，从左到右，CIELAB颜色空间的知觉布局，CIFAR-10图像中的共现，以及语言共现建模; 大致按照计算)。详细信息见 Appendix D。

一类对比学习者趋同于ℙ(Z) 的表示

考虑一个对比学习者，它建模\textit{共同发生}的观测。为了简化讨论，我们使用以下定义的共现概率 Pcoor 来表示两个观测 xα 和 xb 在某个时间窗口 Twindow 内同时发生的概率：

Pcoor(xα，xb) ∝∑ ℙ(Xₜ＝xα，Xₜ'＝xb).

(t，t')：|t–t'|≤Twindow

类似地，我们可以为Z 和其他观测模态定义 Pcoor 。注意， Pcoor是对称的。

考虑正样本对为时间上接近的两个观测（从 Pcoor 采样）和负样本对为从任何时间点独立采样的观测。我们的对比学习者试图通过学习表示 fx：X → ℝᵈ 来分类一个样本对是正样本还是负样本，使得点积核近似于对数赔率比，最多有一些偏移：

Pcoor(xα│xb)

＝log ──────＋cx(xα)

Pcoor(xα)

＝Kpmi(xα，xb)＋cx(xα)，

其中 Kpmi是逐点互信息（PMI）核，且 cx(xα) 对 xb 是常数。我们注意到这是具有NCE目标的自监督对比学习者的常见设置，例如SimCLR和SimCSE。

在世界足够平滑的温和条件下，选择fx 可以精确表示 Kpmi：

〈fx(xα)，fx(xb)〉＝Kpmi(xα，xb)＋cx，

其中我们观察到＝Kpmi(xα，xb)＋cx(xα)，中的 cx(xα) 必须是常数，因为两边都是对称的。

因此，我们考虑的对比学习者通过表示 $f_X$ 最小化其核是Kpmi （最多有一个常数偏移）。随着足够的数据和优化，我们将观察到趋同到这一点。

因此我们趋同于 $X$ 的统计表示，但 $Z$ 呢？回想一下，我们的理想化世界由\textit{双射}观测函数组成，这些函数在离散随机变量上保持概率。所以我们有：

Pcoor(xα，xb)＝Pcoor(zα，zb)

Kpmi(xα，xb)＝Kpmi(zα，zb)，

这里我们以模态无关的方式使用Pcoor 和 Kpmi 来强调不同模态共享相同的量。

所有这些论点不仅适用于 $X$，也适用于 $Y$（或任何其他双射离散模态），这意味着：Kpmi(zα，zb)＝〈fx(xα)，fx(xb)〉– cx

＝〈fʏ(yα)，fʏ(yb)〉– cʏ .

因此，在我们的理想化世界中的任何模态中，我们观察到表示趋同于相同的核，代表了ℙ(Z) 的某些成对统计量。

这种分析表明，某些表示学习算法可能归结为一个简单规则：找到一个嵌入，使相似度等于PMI。我们注意到这个想法与之前使用PMI作为视觉和语言聚类相似性度量的工作一致。

颜色研究

我们进行了一项案例研究，以验证趋同确实发生在实际数据上。Abdou et al. (2021) 发现，当训练语言表示以预测文本中的共现时，这些表示中的颜色距离与人类感知的颜色距离非常接近，我们在 Figure 8 中再现了这一点，包括对比和预测模型。有趣的是，他们注意到，随着模型变得更大和在建模文本共现上变得更好，相似性增加。在 Figure 8 中，我们还基于 Kpmi 学习了图像中的共现表示。确实，在任何一个领域中学习共现统计会恢复大致相同的知觉表示。此实验的详细信息见 Appendix D.。

我们相信，我们的简单模型概括了复杂现实系统的基本方面，并为理解模型趋同到的表示提供了一条路径——一个在各个领域和模态中都很熟练的统一模型，基于底层世界的统计属性。第6节进一步详细阐述了一些局限性。

趋同的意义是什么？

扩展是充分的，但不一定是高效的

我们的论点大致与“规模即一切”的主张一致，即达到高水平的智能。我们已经论证了，随着资源的扩展（参数数量、数据点数量、计算量），表示正在趋同，无论其他建模选择和数据模态如何。这是否意味着规模是一切？并非如此：不同的方法可以以不同的效率扩展，成功的方法仍需满足一些一般要求（例如，成为一致估计器，建模 ℙ(Z) 的成对统计）。

训练数据可以跨模态共享

假设你可以访问N 张图像和 M 句子，并希望学习最佳表示。如果确实存在一个模态无关的柏拉图表示，那么图像数据应该有助于找到它，语言数据也是如此。这意味着，如果你想训练最佳视觉模型，你不仅应该训练 N 张图像，还应该训练 M 句子。这已经成为常见做法。许多视觉模型从预训练的LLMs中微调。另一方向较少见，但也符合我们的假设：如果你想构建最佳LLM，你也应该在图像数据上训练它。事实上，Achiam et al. (2023) 声称有证据表明，训练图像可以提高文本性能。理论上，应该有一些转换比率：一个像素在训练LLMs时相当于 α 个词，一个词在训练视觉模型时相当于 b 个像素。

跨模态翻译和适应的容易性

当两个表示对齐时，从一个过渡到另一个应该是一个简单的函数，可以容易地获得。我们的假设可以解释条件生成比无条件生成更容易的现象，因为我们所条件的数据可能具有与我们生成的数据相同的柏拉图结构。与此一致，最近的研究发现表示条件更容易。类似地，表示趋同可以作为桥梁，让我们在没有配对数据的情况下找到域之间的映射；这可能是视觉中无配对翻译成功的基础和语言。我们强调，这并不意味着在单一模态（例如语言）上训练的模型可以立即处理另一种模态的原始数据（例如视觉）。使它们适应新模态的是它们共享一个共同的模态无关表示，并且可以轻松处理新模态的表示。此外，这意味着语言模型即使在没有跨模态数据的情况下也会在视觉领域获得某种概念的基础。[6]我们的论点给出了一个答案：不能立即，但经过一点视觉体验（形成视觉表示）后，它应该很容易（通过映射到先前的触觉表示）。经验数据表明，确实先天失明的儿童在获得视力后可以快速学习这些能力跨模态数据的主要优势可能只是样本效率。

扩展可能减少幻觉和偏见

当前LLMs的一个显著缺点是它们倾向于产生幻觉或输出错误陈述。如果模型确实趋向于现实的准确模型，并且扩展推动了这种趋同，那么我们可能会期望幻觉随着规模的扩大而减少。当然，我们的假设是基于未来模型的训练数据构成足够无损和多样的测量集合。这可能不会实现，但这是我们假设值得指出的一个影响。关于某些类型的偏见，可以做出类似的论点。已有研究表明，大模型可以加剧训练数据中存在的偏见。我们的假设意味着，尽管这可能是真的，但我们应该预期更大的模型会更少地放大偏见。这并不意味着偏见会被消除，而是模型的偏见将更准确地反映数据的偏见，而不是加剧它们。

反例和局限性

不同模态可能包含不同的信息

对我们假设的一个直接反对意见是：某种模态独有的信息呢？语言真的能描述观看日全食的难以言喻的体验吗？或者，一张图片如何传达“我相信言论自由”这样的概念，这在英语中很容易写出来？如果两个不同的模型访问到根本不同的信息，它们就不可能趋同于相同的表示。

更准确地说，我们在第4节中的数学论点仅严格适用于Z 的双射投影，因此所有投影中的信息等同于底层世界中的信息。这对于有损或随机观测函数并不成立。尽管如此，理论和经验上都有类似的论点，即实际对比和预测学习者学习了共现关系。Luet al. (2021) 和 Mirchandani et al. (2023) 也表明，训练自回归生成文本的模型也捕捉了许多其他模态的统计关系，包括符号推理、视觉、蛋白质折叠和机器人。

与愿景一致

ImageNet21K

MAE

DINOv2

CLlP

CLlP(ll2K ft)

0.22 -

0.20 -

0.18 -

0.16 -

0.14 -

0.12 -

0.10 -

0.08 -

0.06 -

5个字

10个字

20字

30字

DCI标题密度

图9.增加字幕密度可提高对齐度

增加描述密度改善对齐：我们使用 Densely-Captioned-Images（DCI）数据集通过 LLaMA3-8B-Instruct 来总结和生成粗粒度描述，从密集描述开始。我们计算所有视觉和语言模型的平均对齐得分，标准差在我们评估的语言模型中测量。随着描述变得更密集，映射可能变得更加双射，从而提高语言-视觉对齐得分。

需要开发更细致的假设来处理非双射观测和抽象概念的情况。一个起点可以是：当输入信号足够高信息且模型足够高容量时，不同的模型将趋向于相同的表示；当它们不是时，低信息表示只会与高信息表示对齐，直到由输入信号之间的互信息和每个模型的容量决定的水平。这一上限可能具有或不具有实际意义。像 CLIP 这样的流行表示明确优化只捕捉视觉和语言之间的共享信息，但在许多纯视觉任务上非常成功。我们在 Figure 9 中进行了信息水平效应的初步测试（详见 Appendix E ），发现描述越详细（信息量越高），其LLM表示与相应图像的视觉表示对齐越好。

不是所有表示目前都在趋同

我们的论点主要集中在两个模态：视觉和语言。尽管我们确实期望其他模态会遵循类似的趋势，但我们尚未在所有领域看到相同程度的趋同。例如，在机器人技术中，目前还没有一种标准的方法来表示世界状态，如同表示图像和文本那样。一个限制在于机器人技术中使用的硬件通常昂贵且速度慢。这在训练数据的数量和多样性上造成了瓶颈。

生产AI模型的社会偏见

研究人员的偏见和AI社区内的集体偏好塑造了模型开发的轨迹。通常存在一个明确或隐含的目标，即设计模仿人类推理和表现的AI系统，这可能导致趋向于类人表示，即使其他类型的智能实际上是可能的。此外，“硬件彩票”（hardware lottery）表明，AI模型的成功还可能取决于其设计与现有计算架构的兼容性，进一步助长了趋同趋势。

特殊用途的智能可能不会趋同

不同的智能系统可以被设计来完成不同的任务。例如：一个生物信息系统可能预测蛋白质结构；一个自动驾驶汽车可能在高速公路上遵循车道。这两个狭窄任务之间可能没有太多共享的内容。我们的论点仅适用于优化在许多任务上表现良好的智能。我们已经论证了现实的表示是一种在许多任务上有用的结构，但对于任何特定用途，可能有捷径，甚至是与现实脱节的有效表示。这样的捷径可能更加高效，对于在特定领域的持续改进是必要的。如果持续扩展遇到资源（如能源和计算）的边界条件，这将变得更为相关。

我们如何测量对齐？

我们在实验中主要关注一种特定的对齐度量——相互最近邻，并引用了使用其他几种度量的实验。然而，关于所有这些对齐度量的优缺点，仍然存在积极的辩论。我们在 Appendix A. 中讨论了我们的选择，并展示了其他对齐度量的结果。

还有很多需要解释

我们已经展示了不同模型达到相似但不是相同表示的结果。例如，在 Figure 3 中，对齐显然增加，但根据我们的相互最近邻度量，得分仅达到 0.16 。该度量的理论最大值为 1 。得分 0.16 是表明强对齐，剩余的差距是“噪声”，还是表明对齐差，存在重大差异需要解释？我们将此作为一个开放问题。

参考

1. 触觉可以传达这个例子中的形状，但不能传达颜色。这是我们在本文的多个地方讨论的假设的重要限制：不同的传感器和视角可能捕捉到不同的信息，这可能限制它们趋同于相同表示的潜力。

2. 借用自\citet{tolstoy1877anna

3. 类似的类比在其他领域也有，如\citet{diamond1998guns}普及的“安娜·卡列尼娜原则”用于解释动物驯化。

4. 这里我们仅分析时间序列，但注意到相同的分析可以对空间中的事件进行。

5. 这种后者解释可能更符合柏拉图的意图。学者们认为他的洞穴比喻拒绝任何真实世界状态的概念

6. 1688年，威廉·莫利纽提出了一个问题：一个天生失明的人，在获得视力后，能否仅凭视觉辨认形状？

（本章完）