数学联邦政治世界观
超小超大

柏拉图表示假说 (13-10)

所有这些论点不仅适用于 $X$,也适用于 $Y$(或任何其他双射离散模态),这意味着:Kpmi(zα,zb)=〈fx(xα),fx(xb)〉– cx

=〈fʏ(yα),fʏ(yb)〉– cʏ .

因此,在我们的理想化世界中的任何模态中,我们观察到表示趋同于相同的核,代表了ℙ(Z) 的某些成对统计量。

这种分析表明,某些表示学习算法可能归结为一个简单规则:找到一个嵌入,使相似度等于PMI。我们注意到这个想法与之前使用PMI作为视觉和语言聚类相似性度量的工作一致。

颜色研究

我们进行了一项案例研究,以验证趋同确实发生在实际数据上。Abdou et al. (2021) 发现,当训练语言表示以预测文本中的共现时,这些表示中的颜色距离与人类感知的颜色距离非常接近,我们在 Figure 8 中再现了这一点,包括对比和预测模型。有趣的是,他们注意到,随着模型变得更大和在建模文本共现上变得更好,相似性增加。在 Figure 8 中,我们还基于 Kpmi 学习了图像中的共现表示。确实,在任何一个领域中学习共现统计会恢复大致相同的知觉表示。此实验的详细信息见 Appendix D.。

我们相信,我们的简单模型概括了复杂现实系统的基本方面,并为理解模型趋同到的表示提供了一条路径——一个在各个领域和模态中都很熟练的统一模型,基于底层世界的统计属性。 第6节 进一步详细阐述了一些局限性。

趋同的意义是什么?

扩展是充分的,但不一定是高效的

我们的论点大致与“规模即一切”的主张一致,即达到高水平的智能。我们已经论证了,随着资源的扩展(参数数量、数据点数量、计算量),表示正在趋同,无论其他建模选择和数据模态如何。这是否意味着规模是一切?并非如此:不同的方法可以以不同的效率扩展,成功的方法仍需满足一些一般要求(例如,成为一致估计器,建模 ℙ(Z) 的成对统计)。

训练数据可以跨模态共享

假设你可以访问N 张图像和 M 句子,并希望学习最佳表示。如果确实存在一个模态无关的柏拉图表示,那么图像数据应该有助于找到它,语言数据也是如此。这意味着,如果你想训练最佳视觉模型,你不仅应该训练 N 张图像,还应该训练 M 句子。这已经成为常见做法。许多视觉模型从预训练的LLMs中微调。另一方向较少见,但也符合我们的假设:如果你想构建最佳LLM,你也应该在图像数据上训练它。事实上,Achiam et al. (2023) 声称有证据表明,训练图像可以提高文本性能。理论上,应该有一些转换比率:一个像素在训练LLMs时相当于 α 个词,一个词在训练视觉模型时相当于 b 个像素。

跨模态翻译和适应的容易性

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

星迹晨海 连载中
星迹晨海
羽寅
女主翁芝,无男主,游戏世界
1.2万字1个月前
配为主 连载中
配为主
谁家地理考29分啊
0.5万字1个月前
超变战陀之你是我的唯一 连载中
超变战陀之你是我的唯一
蜜桃樱桃酱
主cp:星寒,星空,星澜
0.3万字4周前
有谁愿意当坏人 连载中
有谁愿意当坏人
该用户已注销
这人很懒,什么都没写
25.2万字4周前
汪汪队立大功奇毛 连载中
汪汪队立大功奇毛
白汐鱼
当汪汪队里最强的两只狗狗碰撞后后擦出怎样的火花呢?不喜勿喷,谢谢渣渣文笔
0.3万字4周前
小甜饼合集(小短篇) 连载中
小甜饼合集(小短篇)
锦华佑
1.0万字4周前