趋同于一般能力
0.40-
0.35 -
铲斗内对准
0.30 -
0.25-
0.20 -
0.15-
0.10-
0.05 -
0.00 -
0-20% 0-40% 0-60% 0-80% 0-100%
已解决VTAB任务的百分比c(总数=19)
模型表示UMAP
已解决的VTAB任务数
19 -
16 -
12 -
8 -
4 -
0
△随机初始化
♢分类
✚Mae
●对比的
★夹子
图2.视觉模型随着能力的提高而收敛:
随着能力提升,视觉模型趋同:我们使用相互最近邻在Places-365数据集上测量了78个模型的对齐情况,并评估它们在视觉任务适应基准(VTAB)中下游任务的表现。左图:解决更多VTAB任务的模型之间更趋同。误差条显示标准误差。右图:我们使用UMAP将模型嵌入到二维空间,基于 ≜ – log(alignment)。更通用和强大的模型(蓝色)有更相似的表示。
不同架构和目标的模型可以有一致的表示
表示趋同的一个迹象是建立在预训练基础模型上的系统数量的增加。这些模型正成为越来越多任务的标准骨干。它们在众多应用中的多功能性意味着它们表示数据的方式具有一定的普遍性。
尽管这一趋势表明趋向于相对少数基础模型,但这并不意味着不同基础模型将达到相同的表示。然而,几篇近期的论文表明确实如此。
Lenc & Vedaldi (2015) 进行了一项研究,他们通过一种称为模型缝合 (model stitching) 的技术来测量表示相似性。给定两个模型, f 和 g ,每个由多个层组成 f=f₁◦· · ·◦fₙ g=g₁◦· · ·◦gₘ ,从 f 中的一个中间表示通过一个学习到的仿射缝合层 h 整合到 g 中,产生一个新的缝合模型 F=f₁◦· · ·◦fₖ◦h◦gₖ₊₁◦· · ·◦gₘ 。如果 F 表现良好,这表明 f 和 g 在第 k 层具有兼容的表示,直到变换 h 。
在他们的研究中,Lenc & Vedaldi (2015) 得出了两个显著的发现:(1)一个在ImageNet上训练的视觉模型可以与在Places-365数据集上训练的模型对齐,同时保持良好的性能;(2)这些卷积网络的早期层比后期层更可互换。第一个发现表明,在不同的图像数据集上,表示的独立性达到了一个层次。第二个发现与广泛的研究一致,即定向Gabor-like滤波器在人工和生物视觉系统中都很常见。这表明各种神经网络架构趋同于相似的初始层表示。扩展了模型缝合的概念,发现使用自监督目标训练的模型与其监督对应物紧密对齐。
Moschella et al. (2022) 进一步证明了无需学习缝合层的“零样本”模型缝合的可行性。尽管不同的文本模型在不同的模态上训练,他们发现模型通常以惊人相似的方式嵌入数据。特别是,他们考虑了由学习表示定义的核K ,并展示了 K 作为模型之间的桥梁,使得在一种语言(如英语)上训练的编码器能够有效地与另一种语言(如法语)的解码器配合。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。