数学联邦政治世界观
超小超大

柏拉图表示假说 (13-4)

Dravid et al. (2023) 将这一想法扩展到个别神经元,发现“罗塞塔神经元”(Rosetta Neurons)在一系列视觉模型中被相同模式激活。这些神经元构成了所有模型独立发现的共同字典。

010+

iTzaNebel

ZAONIg01JUaWUBIY

0.16

3VW

0.14

BoE

01 02

03

05

01

0.12

016

D.20-

(y xZtI)dno

Dino small

0年

0.10

dino small

dino base

dino large

dino giant

01

0.2

03

0.4

0.5

01 02 03

0.4

05

语言表现

图三.fiqure3.语言和VISION模型协调一致

语言和视觉模型对齐:我们使用相互最近邻在Wikipedia图片描述数据集(WIT)上测量对齐情况。x轴是语言模型在OpenWebText数据集上4M标记的表现(见附录B中的模型名称图表)。我们使用 1–bits–per–byte 测量表现,其中 bits–per–byte 按输入文本字符串的总字节数归一化交叉熵。结果显示语言-视觉对齐和语言建模评分之间的线性关系,普遍趋势是能力越强的语言模型与能力越强的视觉模型对齐越好。我们发现,经过显式语言监督训练的CLIP模型表现出较高的对齐水平。然而,经过ImageNet分类微调后(标记为CLIP (I12K ft)),这种对齐水平下降。

对齐随规模和性能增加

Kornblith et al. (2019) 观察到模型对齐不仅存在,而且随着模型规模的增加而增加。在CIFAR-10分类中,他们发现较大的模型比较小的模型表现出更高的对齐度。理论上,Balestriero & Baraniuk (2018) 表明具有相似输出的模型(例如,由于性能较高)也具有相似的内部激活。随着模型规模持续增长,这表明模型对齐将随着时间增加——我们可能会预期下一代更大、更好的模型会更彼此对齐。

我们通过评估78个视觉模型的迁移性能来扩展这一观察。这些模型使用不同的架构、训练目标和数据集进行训练(详细信息见 Appendix C.1). )。在 Figure 2 (左)中,我们根据它们在VTAB数据集上的平均迁移性能对这些模型进行分箱,然后测量每个分箱内模型的平均核对齐度。结果表明,高迁移性能的模型形成了紧密聚类的表示集,而性能较弱的模型具有更可变的表示。我们进一步使用UMAP对模型表示进行可视化,如 Figure 2(右)所示。这表明,能力强的模型以相似的方式表示数据。响应 Bansal et al. (2021) 和 Tolstoy (1877),我们可以说:所有强模型都是相似的,每个弱模型各有各的弱点。

目前的讨论表明,各种模型正在向统一的表示趋同。但这种趋同是否延伸到模型权重?虽然具有不同架构的模型可能没有兼容的权重空间,但有大量证据表明具有相同架构的模型通常会趋同到相同的权重盆地(basin of weights)。即使是具有不同初始化的模型,也能趋同到权重空间的置换上。因此,可以将具有相同架构的分别训练的模型合并,并实现混合中所有模型的一些能力。

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

鹅黄梦魇 连载中
鹅黄梦魇
弎柒本柒
天真灿烂爱穿鹅黄色衣裙的少女林初橙。魔女唐海璃。唐海璃本来与林初橙是亲姐妹。小时候唐海璃为了保护林初橙被魔掳走,而后面,云梦瑶(女生)爱上了......
3.7万字1个月前
HM实验室 连载中
HM实验室
绵是一只草履虫
记得提醒我,不然我真的会忘记更新。
0.1万字4周前
幻影忍者:余晖 连载中
幻影忍者:余晖
猫泫儿
双向奔赴/现代言情/校园/劳晴磕起来![男:第一次遇见她觉得她很可爱~][女:第一次和他说话很紧张][男:我喜欢上她了!][女:我开始暗恋他......
6.3万字4周前
叶罗丽:世劫至,她不归 连载中
叶罗丽:世劫至,她不归
过往如烟火
七日约,劫难至——王默我会永远都在你的身后——水清漓忘了我吧——默公主
0.5万字4周前
快穿:一笙时依 连载中
快穿:一笙时依
松胭
时依看着眼前的易辞“你喜欢我”易辞“我喜欢你,超喜欢你”时依“我不喜欢男人”易辞“没事,我也不喜欢男人,正好凑一对”时依“…靠”
3.1万字4周前
颖星传说 连载中
颖星传说
皮皮Q
神话传说,我听过;科幻电影,我也看过,却从未想过有一天自己会成为它们的一部分,如果可以,我想堵住耳朵,蒙上眼睛,逃的远远的……
24.2万字4周前