数学联邦政治世界观
超小超大

柏拉图表示假说 (13-4)

Dravid et al. (2023) 将这一想法扩展到个别神经元,发现“罗塞塔神经元”(Rosetta Neurons)在一系列视觉模型中被相同模式激活。这些神经元构成了所有模型独立发现的共同字典。

010+

iTzaNebel

ZAONIg01JUaWUBIY

0.16

3VW

0.14

BoE

01 02

03

05

01

0.12

016

D.20-

(y xZtI)dno

Dino small

0年

0.10

dino small

dino base

dino large

dino giant

01

0.2

03

0.4

0.5

01 02 03

0.4

05

语言表现

图三.fiqure3.语言和VISION模型协调一致

语言和视觉模型对齐:我们使用相互最近邻在Wikipedia图片描述数据集(WIT)上测量对齐情况。x轴是语言模型在OpenWebText数据集上4M标记的表现(见附录B中的模型名称图表)。我们使用 1–bits–per–byte 测量表现,其中 bits–per–byte 按输入文本字符串的总字节数归一化交叉熵。结果显示语言-视觉对齐和语言建模评分之间的线性关系,普遍趋势是能力越强的语言模型与能力越强的视觉模型对齐越好。我们发现,经过显式语言监督训练的CLIP模型表现出较高的对齐水平。然而,经过ImageNet分类微调后(标记为CLIP (I12K ft)),这种对齐水平下降。

对齐随规模和性能增加

Kornblith et al. (2019) 观察到模型对齐不仅存在,而且随着模型规模的增加而增加。在CIFAR-10分类中,他们发现较大的模型比较小的模型表现出更高的对齐度。理论上,Balestriero & Baraniuk (2018) 表明具有相似输出的模型(例如,由于性能较高)也具有相似的内部激活。随着模型规模持续增长,这表明模型对齐将随着时间增加——我们可能会预期下一代更大、更好的模型会更彼此对齐。

我们通过评估78个视觉模型的迁移性能来扩展这一观察。这些模型使用不同的架构、训练目标和数据集进行训练(详细信息见 Appendix C.1). )。在 Figure 2 (左)中,我们根据它们在VTAB数据集上的平均迁移性能对这些模型进行分箱,然后测量每个分箱内模型的平均核对齐度。结果表明,高迁移性能的模型形成了紧密聚类的表示集,而性能较弱的模型具有更可变的表示。我们进一步使用UMAP对模型表示进行可视化,如 Figure 2(右)所示。这表明,能力强的模型以相似的方式表示数据。响应 Bansal et al. (2021) 和 Tolstoy (1877),我们可以说:所有强模型都是相似的,每个弱模型各有各的弱点。

目前的讨论表明,各种模型正在向统一的表示趋同。但这种趋同是否延伸到模型权重?虽然具有不同架构的模型可能没有兼容的权重空间,但有大量证据表明具有相同架构的模型通常会趋同到相同的权重盆地(basin of weights)。即使是具有不同初始化的模型,也能趋同到权重空间的置换上。因此,可以将具有相同架构的分别训练的模型合并,并实现混合中所有模型的一些能力。

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

宿主一死,他们哭着求愿谅 连载中
宿主一死,他们哭着求愿谅
先生再见
云烟前往小世界修补人物剧情,却没想到…世界一:被夺走气运的主角云烟被宗门利用,绝望自杀时…被救了回来主角团:我错了…别死好吗云烟:迟来的深情......
0.6万字6个月前
至尊宝与紫霞之大唐荣耀 连载中
至尊宝与紫霞之大唐荣耀
天兰昊天
自己写的,古代……
62.2万字6个月前
碎语 连载中
碎语
NNNetta
分享短句短文
67.1万字6个月前
快穿系统之宿主花清烟 连载中
快穿系统之宿主花清烟
梨花院落溶溶月
系统:宿主你要干嘛?系统:快住手啊!!!咚得一声……系统:……花清烟:我住手了。系统:你……你……啊啊啊!系统:主神大人,我要换宿主,呜呜呜......
10.5万字6个月前
我的师傅是结缘神 连载中
我的师傅是结缘神
橘子羊
远东之地有桃林,靠湖岸、绵延百里、内有妖神名曰结缘,百年现人间,来去自有桃花相伴。下有门童名为御守,司妖姻缘,主他人相求,方可为人、妖结缘。......
12.6万字6个月前
吻我,骗子 连载中
吻我,骗子
童年的三月
再吻我一次吧,你这骗子我只爱你啊我知道啊
6.7万字6个月前