当两个表示对齐时,从一个过渡到另一个应该是一个简单的函数,可以容易地获得。我们的假设可以解释条件生成比无条件生成更容易的现象,因为我们所条件的数据可能具有与我们生成的数据相同的柏拉图结构。与此一致,最近的研究发现表示条件更容易。类似地,表示趋同可以作为桥梁,让我们在没有配对数据的情况下找到域之间的映射;这可能是视觉中无配对翻译成功的基础和语言。我们强调,这并不意味着在单一模态(例如语言)上训练的模型可以立即处理另一种模态的原始数据(例如视觉)。使它们适应新模态的是它们共享一个共同的模态无关表示,并且可以轻松处理新模态的表示。 此外,这意味着语言模型即使在没有跨模态数据的情况下也会在视觉领域获得某种概念的基础。[6]我们的论点给出了一个答案:不能立即,但经过一点视觉体验(形成视觉表示)后,它应该很容易(通过映射到先前的触觉表示)。经验数据表明,确实先天失明的儿童在获得视力后可以快速学习这些能力 跨模态数据的主要优势可能只是样本效率。
扩展可能减少幻觉和偏见
当前LLMs的一个显著缺点是它们倾向于产生幻觉或输出错误陈述。如果模型确实趋向于现实的准确模型,并且扩展推动了这种趋同,那么我们可能会期望幻觉随着规模的扩大而减少。当然,我们的假设是基于未来模型的训练数据构成足够无损和多样的测量集合。这可能不会实现,但这是我们假设值得指出的一个影响。关于某些类型的偏见,可以做出类似的论点。已有研究表明,大模型可以加剧训练数据中存在的偏见。我们的假设意味着,尽管这可能是真的,但我们应该预期更大的模型会更少地放大偏见。这并不意味着偏见会被消除,而是模型的偏见将更准确地反映数据的偏见,而不是加剧它们。
反例和局限性
不同模态可能包含不同的信息
对我们假设的一个直接反对意见是:某种模态独有的信息呢?语言真的能描述观看日全食的难以言喻的体验吗?或者,一张图片如何传达“我相信言论自由”这样的概念,这在英语中很容易写出来?如果两个不同的模型访问到根本不同的信息,它们就不可能趋同于相同的表示。
更准确地说,我们在 第4节 中的数学论点仅严格适用于Z 的双射投影,因此所有投影中的信息等同于底层世界中的信息。这对于有损或随机观测函数并不成立。尽管如此,理论和经验上都有类似的论点,即实际对比和预测学习者学习了共现关系。Luet al. (2021) 和 Mirchandani et al. (2023) 也表明,训练自回归生成文本的模型也捕捉了许多其他模态的统计关系,包括符号推理、视觉、蛋白质折叠和机器人。
与愿景一致
ImageNet21K
MAE
DINOv2
CLlP
CLlP(ll2K ft)
0.22 -
0.20 -
0.18 -
0.16 -
0.14 -
0.12 -
0.10 -
0.08 -
0.06 -
5个字
10个字
20字
30字
DCI标题密度
图9.增加字幕密度可提高对齐度
增加描述密度改善对齐:我们使用 Densely-Captioned-Images(DCI)数据集通过 LLaMA3-8B-Instruct 来总结和生成粗粒度描述,从密集描述开始。我们计算所有视觉和语言模型的平均对齐得分,标准差在我们评估的语言模型中测量。随着描述变得更密集,映射可能变得更加双射,从而提高语言-视觉对齐得分。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。