数学联邦政治世界观
超小超大

柏拉图表示假说 (13-4)

Dravid et al. (2023) 将这一想法扩展到个别神经元,发现“罗塞塔神经元”(Rosetta Neurons)在一系列视觉模型中被相同模式激活。这些神经元构成了所有模型独立发现的共同字典。

010+

iTzaNebel

ZAONIg01JUaWUBIY

0.16

3VW

0.14

BoE

01 02

03

05

01

0.12

016

D.20-

(y xZtI)dno

Dino small

0年

0.10

dino small

dino base

dino large

dino giant

01

0.2

03

0.4

0.5

01 02 03

0.4

05

语言表现

图三.fiqure3.语言和VISION模型协调一致

语言和视觉模型对齐:我们使用相互最近邻在Wikipedia图片描述数据集(WIT)上测量对齐情况。x轴是语言模型在OpenWebText数据集上4M标记的表现(见附录B中的模型名称图表)。我们使用 1–bits–per–byte 测量表现,其中 bits–per–byte 按输入文本字符串的总字节数归一化交叉熵。结果显示语言-视觉对齐和语言建模评分之间的线性关系,普遍趋势是能力越强的语言模型与能力越强的视觉模型对齐越好。我们发现,经过显式语言监督训练的CLIP模型表现出较高的对齐水平。然而,经过ImageNet分类微调后(标记为CLIP (I12K ft)),这种对齐水平下降。

对齐随规模和性能增加

Kornblith et al. (2019) 观察到模型对齐不仅存在,而且随着模型规模的增加而增加。在CIFAR-10分类中,他们发现较大的模型比较小的模型表现出更高的对齐度。理论上,Balestriero & Baraniuk (2018) 表明具有相似输出的模型(例如,由于性能较高)也具有相似的内部激活。随着模型规模持续增长,这表明模型对齐将随着时间增加——我们可能会预期下一代更大、更好的模型会更彼此对齐。

我们通过评估78个视觉模型的迁移性能来扩展这一观察。这些模型使用不同的架构、训练目标和数据集进行训练(详细信息见 Appendix C.1). )。在 Figure 2 (左)中,我们根据它们在VTAB数据集上的平均迁移性能对这些模型进行分箱,然后测量每个分箱内模型的平均核对齐度。结果表明,高迁移性能的模型形成了紧密聚类的表示集,而性能较弱的模型具有更可变的表示。我们进一步使用UMAP对模型表示进行可视化,如 Figure 2(右)所示。这表明,能力强的模型以相似的方式表示数据。响应 Bansal et al. (2021) 和 Tolstoy (1877),我们可以说:所有强模型都是相似的,每个弱模型各有各的弱点。

目前的讨论表明,各种模型正在向统一的表示趋同。但这种趋同是否延伸到模型权重?虽然具有不同架构的模型可能没有兼容的权重空间,但有大量证据表明具有相同架构的模型通常会趋同到相同的权重盆地(basin of weights)。即使是具有不同初始化的模型,也能趋同到权重空间的置换上。因此,可以将具有相同架构的分别训练的模型合并,并实现混合中所有模型的一些能力。

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

哥哥选我我超甜! 连载中
哥哥选我我超甜!
Ther.D
  于星为了给自己的合租室友报仇,不惜用女音和女装勾搭渣男,却在得手面基之后发现这个渣男竟然是自己的学弟……
0.5万字5个月前
香沉茶饮 连载中
香沉茶饮
187***978_1830434104
有时间再把他们的视角全部出一下这期出的是琳琳视角
0.1万字5个月前
腹黑狐狸的宠妻攻略 连载中
腹黑狐狸的宠妻攻略
夏氷冬卿
是神又如何?能成佛又如何?几十万岁如何?永生不灭又如何?我只愿陪着我的小狐狸踏万水千山,赏姹紫嫣红,顺便……谈谈情,说说爱,造一造什么的,不......
21.2万字5个月前
收了你这小骚包 连载中
收了你这小骚包
先生刘索隆
无殊是一只活了好几万年的麻雀精,算是他们村儿最老的鸟了,于是成功凭借“老”​当选了好几届的村代表,在他们村儿还算有点地位,倚老卖老地独自霸占......
15.5万字5个月前
万界武圣 连载中
万界武圣
寒月秋
7.8万字5个月前
穿进ABO我自食其力 连载中
穿进ABO我自食其力
该用户已注销
abo文,有私设!!!特级杀手意外穿进了一个令他三观破裂的ABO世界,Omega要像女人一样结婚生子,而且还有发情期这么不科学的设定!不仅如......
8.3万字5个月前