其他研究显示了跨模态协同作用的进一步证据。Achiam et al. (2023) 发现联合训练语言模型和视觉模型比单独训练语言模型在语言任务上表现更好。Sharma et al. (2024) 通过将图像转换为LLM可以处理的代码,探测了仅在语言数据上训练的LLMs的视觉知识。他们发现LLMs对视觉结构有丰富的知识,以至于可以通过查询LLM生成代码并渲染响应来在图像上训练出不错的视觉表示。在视觉生成方面,LLMs展示了通过视觉结构(例如,边界框和位置)增强描述和改进生成质量的能力。在其他模态中,Ngo & Kim (2024) 显示听觉模型也可以通过线性变换大致对齐到语言模型,Ng et al. (2023) 证明了使用预训练语言模型进行面部动作预测的有效性。
我们着手在更广泛的范围内验证这些主张,以确定模型是否确实在学习一种越来越模态无关的世界表示。我们抽取了仅在视觉或语言上训练的各种模型,比较它们在许多任务上变得更大和更有能力后的表示。
在 Figure 3 中,我们评估了一组语言模型和视觉模型之间的对齐情况。目前我们仅定义了在相同输入空间上定义的两个核函数的对齐。为了测量跨模态对齐,我们使用配对数据集来连接这两种模态。对于视觉和文本,我们使用Wikipedia图片描述数据集(xᵢ,yᵢ)i ,该数据集由Wikipedia的图像 (xᵢ) 及其对应的描述 (yᵢ) 组成。然后我们测量语言模型 ftext 和视觉模型 fᵢₘg 的对齐情况,作为以下两个核函数的对齐: Kᵢₘg(i,j)=〈fᵢₘg(xᵢ),fᵢₘg(xⱼ)〉
Kₜₑₓₜ(i,j)=〈fₜₑₓₜ(yᵢ),fₜₑₓₜ(yⱼ)〉.
通过这种分析,我们发现LLM在语言建模方面表现越好,它与视觉模型的对齐程度越高,如 Figure 3. 所示。反过来也成立:视觉模型表现越好,它与LLM的对齐程度越高。更多详情见 Appendix C.2。
模型正越来越多地对齐到大脑
神经网络还显示出与大脑生物表示的显著对齐。这种共性可能是由于两者面对的任务和数据约束的相似性。尽管媒介不同——硅晶体管与生物神经元——大脑和机器面临的基本问题是相同的:有效地提取和理解图像、文本、声音等的底层结构。通过进化,人类视觉系统精炼以执行的任务——如分割、检测和全图分类——也是我们训练神经网络执行的任务。Yamins et al. (2014) 甚至以任务表现为标题,暗示这些任务的表现意味着大脑对齐。此外,Conwell et al. (2022) 表明训练数据在对齐中起着重要作用。心理物理学研究还显示出人类感知视觉相似性和模型感知方式之间的一致性,即使这些模型训练在看似与模仿人类感知无关的任务上,如自监督预测。
对齐是否预测下游表现?
如果模型正在趋向更准确的现实表示,我们预计对齐应该对应于下游任务的改进表现。Figure 4 支持这一假设,展示了在常识推理(Hellaswag)和数学问题解决(GSM8K)上,随着对齐的改善,表现有所提升。
为什么表示趋同?
现代机器学习模型通常通过可能的隐式和/或显式正则化来最小化经验风险:
trained model training objective
⊓ ⊓
f*=arg min f∈F𝔼 x~dataset[Ը(f,x)]+R(f)
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。