Dravid et al. (2023) 将这一想法扩展到个别神经元,发现“罗塞塔神经元”(Rosetta Neurons)在一系列视觉模型中被相同模式激活。这些神经元构成了所有模型独立发现的共同字典。
010+
iTzaNebel
ZAONIg01JUaWUBIY
0.16
3VW
0.14
BoE
01 02
03
05
01
0.12
016
D.20-
(y xZtI)dno
Dino small
0年
0.10
dino small
dino base
dino large
dino giant
01
0.2
03
0.4
0.5
01 02 03
0.4
05
语言表现
图三.fiqure3.语言和VISION模型协调一致
语言和视觉模型对齐:我们使用相互最近邻在Wikipedia图片描述数据集(WIT)上测量对齐情况。x轴是语言模型在OpenWebText数据集上4M标记的表现(见附录B中的模型名称图表)。我们使用 1–bits–per–byte 测量表现,其中 bits–per–byte 按输入文本字符串的总字节数归一化交叉熵。结果显示语言-视觉对齐和语言建模评分之间的线性关系,普遍趋势是能力越强的语言模型与能力越强的视觉模型对齐越好。我们发现,经过显式语言监督训练的CLIP模型表现出较高的对齐水平。然而,经过ImageNet分类微调后(标记为CLIP (I12K ft)),这种对齐水平下降。
对齐随规模和性能增加
Kornblith et al. (2019) 观察到模型对齐不仅存在,而且随着模型规模的增加而增加。在CIFAR-10分类中,他们发现较大的模型比较小的模型表现出更高的对齐度。理论上,Balestriero & Baraniuk (2018) 表明具有相似输出的模型(例如,由于性能较高)也具有相似的内部激活。随着模型规模持续增长,这表明模型对齐将随着时间增加——我们可能会预期下一代更大、更好的模型会更彼此对齐。
我们通过评估78个视觉模型的迁移性能来扩展这一观察。这些模型使用不同的架构、训练目标和数据集进行训练(详细信息见 Appendix C.1). )。在 Figure 2 (左)中,我们根据它们在VTAB数据集上的平均迁移性能对这些模型进行分箱,然后测量每个分箱内模型的平均核对齐度。结果表明,高迁移性能的模型形成了紧密聚类的表示集,而性能较弱的模型具有更可变的表示。我们进一步使用UMAP对模型表示进行可视化,如 Figure 2(右)所示。这表明,能力强的模型以相似的方式表示数据。响应 Bansal et al. (2021) 和 Tolstoy (1877),我们可以说:所有强模型都是相似的,每个弱模型各有各的弱点。
目前的讨论表明,各种模型正在向统一的表示趋同。但这种趋同是否延伸到模型权重?虽然具有不同架构的模型可能没有兼容的权重空间,但有大量证据表明具有相同架构的模型通常会趋同到相同的权重盆地(basin of weights)。即使是具有不同初始化的模型,也能趋同到权重空间的置换上。因此,可以将具有相同架构的分别训练的模型合并,并实现混合中所有模型的一些能力。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。