需要开发更细致的假设来处理非双射观测和抽象概念的情况。一个起点可以是:当输入信号足够高信息且模型足够高容量时,不同的模型将趋向于相同的表示;当它们不是时,低信息表示只会与高信息表示对齐,直到由输入信号之间的互信息和每个模型的容量决定的水平。这一上限可能具有或不具有实际意义。像 CLIP 这样的流行表示明确优化只捕捉视觉和语言之间的共享信息,但在许多纯视觉任务上非常成功。我们在 Figure 9 中进行了信息水平效应的初步测试(详见 Appendix E ),发现描述越详细(信息量越高),其LLM表示与相应图像的视觉表示对齐越好。
不是所有表示目前都在趋同
我们的论点主要集中在两个模态:视觉和语言。尽管我们确实期望其他模态会遵循类似的趋势,但我们尚未在所有领域看到相同程度的趋同。例如,在机器人技术中,目前还没有一种标准的方法来表示世界状态,如同表示图像和文本那样。一个限制在于机器人技术中使用的硬件通常昂贵且速度慢。这在训练数据的数量和多样性上造成了瓶颈。
生产AI模型的社会偏见
研究人员的偏见和AI社区内的集体偏好塑造了模型开发的轨迹。通常存在一个明确或隐含的目标,即设计模仿人类推理和表现的AI系统,这可能导致趋向于类人表示,即使其他类型的智能实际上是可能的。此外,“硬件彩票”(hardware lottery)表明,AI模型的成功还可能取决于其设计与现有计算架构的兼容性,进一步助长了趋同趋势。
特殊用途的智能可能不会趋同
不同的智能系统可以被设计来完成不同的任务。例如: 一个生物信息系统可能预测蛋白质结构;一个自动驾驶汽车可能在高速公路上遵循车道。这两个狭窄任务之间可能没有太多共享的内容。我们的论点仅适用于优化在许多任务上表现良好的智能。我们已经论证了现实的表示是一种在许多任务上有用的结构,但对于任何特定用途,可能有捷径,甚至是与现实脱节的有效表示。这样的捷径可能更加高效,对于在特定领域的持续改进是必要的。如果持续扩展遇到资源(如能源和计算)的边界条件,这将变得更为相关。
我们如何测量对齐?
我们在实验中主要关注一种特定的对齐度量——相互最近邻,并引用了使用其他几种度量的实验。然而,关于所有这些对齐度量的优缺点,仍然存在积极的辩论。我们在 Appendix A. 中讨论了我们的选择,并展示了其他对齐度量的结果。
还有很多需要解释
我们已经展示了不同模型达到相似但不是相同表示的结果。例如,在 Figure 3 中,对齐显然增加,但根据我们的相互最近邻度量,得分仅达到 0.16 。该度量的理论最大值为 1 。得分 0.16 是表明强对齐,剩余的差距是“噪声”,还是表明对齐差,存在重大差异需要解释?我们将此作为一个开放问题。
参考
1. 触觉可以传达这个例子中的形状,但不能传达颜色。这是我们在本文的多个地方讨论的假设的重要限制:不同的传感器和视角可能捕捉到不同的信息,这可能限制它们趋同于相同表示的潜力。
2. 借用自\citet{tolstoy1877anna
3. 类似的类比在其他领域也有,如\citet{diamond1998guns}普及的“安娜·卡列尼娜原则”用于解释动物驯化。
4. 这里我们仅分析时间序列,但注意到相同的分析可以对空间中的事件进行。
5. 这种后者解释可能更符合柏拉图的意图。学者们认为他的洞穴比喻拒绝任何真实世界状态的概念
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。