所有这些论点不仅适用于 $X$,也适用于 $Y$(或任何其他双射离散模态),这意味着:Kpmi(zα,zb)=〈fx(xα),fx(xb)〉– cx
=〈fʏ(yα),fʏ(yb)〉– cʏ .
因此,在我们的理想化世界中的任何模态中,我们观察到表示趋同于相同的核,代表了ℙ(Z) 的某些成对统计量。
这种分析表明,某些表示学习算法可能归结为一个简单规则:找到一个嵌入,使相似度等于PMI。我们注意到这个想法与之前使用PMI作为视觉和语言聚类相似性度量的工作一致。
颜色研究
我们进行了一项案例研究,以验证趋同确实发生在实际数据上。Abdou et al. (2021) 发现,当训练语言表示以预测文本中的共现时,这些表示中的颜色距离与人类感知的颜色距离非常接近,我们在 Figure 8 中再现了这一点,包括对比和预测模型。有趣的是,他们注意到,随着模型变得更大和在建模文本共现上变得更好,相似性增加。在 Figure 8 中,我们还基于 Kpmi 学习了图像中的共现表示。确实,在任何一个领域中学习共现统计会恢复大致相同的知觉表示。此实验的详细信息见 Appendix D.。
我们相信,我们的简单模型概括了复杂现实系统的基本方面,并为理解模型趋同到的表示提供了一条路径——一个在各个领域和模态中都很熟练的统一模型,基于底层世界的统计属性。 第6节 进一步详细阐述了一些局限性。
趋同的意义是什么?
扩展是充分的,但不一定是高效的
我们的论点大致与“规模即一切”的主张一致,即达到高水平的智能。我们已经论证了,随着资源的扩展(参数数量、数据点数量、计算量),表示正在趋同,无论其他建模选择和数据模态如何。这是否意味着规模是一切?并非如此:不同的方法可以以不同的效率扩展,成功的方法仍需满足一些一般要求(例如,成为一致估计器,建模 ℙ(Z) 的成对统计)。
训练数据可以跨模态共享
假设你可以访问N 张图像和 M 句子,并希望学习最佳表示。如果确实存在一个模态无关的柏拉图表示,那么图像数据应该有助于找到它,语言数据也是如此。这意味着,如果你想训练最佳视觉模型,你不仅应该训练 N 张图像,还应该训练 M 句子。这已经成为常见做法。许多视觉模型从预训练的LLMs中微调。另一方向较少见,但也符合我们的假设:如果你想构建最佳LLM,你也应该在图像数据上训练它。事实上,Achiam et al. (2023) 声称有证据表明,训练图像可以提高文本性能。理论上,应该有一些转换比率:一个像素在训练LLMs时相当于 α 个词,一个词在训练视觉模型时相当于 b 个像素。
跨模态翻译和适应的容易性
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。