数学联邦政治世界观
超小超大

柏拉图表示假说 (13-6)

其他研究显示了跨模态协同作用的进一步证据。Achiam et al. (2023) 发现联合训练语言模型和视觉模型比单独训练语言模型在语言任务上表现更好。Sharma et al. (2024) 通过将图像转换为LLM可以处理的代码,探测了仅在语言数据上训练的LLMs的视觉知识。他们发现LLMs对视觉结构有丰富的知识,以至于可以通过查询LLM生成代码并渲染响应来在图像上训练出不错的视觉表示。在视觉生成方面,LLMs展示了通过视觉结构(例如,边界框和位置)增强描述和改进生成质量的能力。在其他模态中,Ngo & Kim (2024) 显示听觉模型也可以通过线性变换大致对齐到语言模型,Ng et al. (2023) 证明了使用预训练语言模型进行面部动作预测的有效性。

我们着手在更广泛的范围内验证这些主张,以确定模型是否确实在学习一种越来越模态无关的世界表示。我们抽取了仅在视觉或语言上训练的各种模型,比较它们在许多任务上变得更大和更有能力后的表示。

在 Figure 3 中,我们评估了一组语言模型和视觉模型之间的对齐情况。目前我们仅定义了在相同输入空间上定义的两个核函数的对齐。为了测量跨模态对齐,我们使用配对数据集来连接这两种模态。对于视觉和文本,我们使用Wikipedia图片描述数据集(xᵢ,yᵢ)i ,该数据集由Wikipedia的图像 (xᵢ) 及其对应的描述 (yᵢ) 组成。然后我们测量语言模型 ftext 和视觉模型 fᵢₘg 的对齐情况,作为以下两个核函数的对齐: Kᵢₘg(i,j)=〈fᵢₘg(xᵢ),fᵢₘg(xⱼ)〉

Kₜₑₓₜ(i,j)=〈fₜₑₓₜ(yᵢ),fₜₑₓₜ(yⱼ)〉.

通过这种分析,我们发现LLM在语言建模方面表现越好,它与视觉模型的对齐程度越高,如 Figure 3. 所示。反过来也成立:视觉模型表现越好,它与LLM的对齐程度越高。更多详情见 Appendix C.2。

模型正越来越多地对齐到大脑

神经网络还显示出与大脑生物表示的显著对齐。这种共性可能是由于两者面对的任务和数据约束的相似性。尽管媒介不同——硅晶体管与生物神经元——大脑和机器面临的基本问题是相同的:有效地提取和理解图像、文本、声音等的底层结构。通过进化,人类视觉系统精炼以执行的任务——如分割、检测和全图分类——也是我们训练神经网络执行的任务。Yamins et al. (2014) 甚至以任务表现为标题,暗示这些任务的表现意味着大脑对齐。此外,Conwell et al. (2022) 表明训练数据在对齐中起着重要作用。心理物理学研究还显示出人类感知视觉相似性和模型感知方式之间的一致性,即使这些模型训练在看似与模仿人类感知无关的任务上,如自监督预测。

对齐是否预测下游表现?

如果模型正在趋向更准确的现实表示,我们预计对齐应该对应于下游任务的改进表现。Figure 4 支持这一假设,展示了在常识推理(Hellaswag)和数学问题解决(GSM8K)上,随着对齐的改善,表现有所提升。

为什么表示趋同?

现代机器学习模型通常通过可能的隐式和/或显式正则化来最小化经验风险:

trained model training objective

⊓ ⊓

f*=arg min f∈F𝔼 x~dataset[Ը(f,x)]+R(f)

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

me的想象1 连载中
me的想象1
爱六小只
我不想填!!!!
0.0万字9个月前
维空战记 连载中
维空战记
不段
这是一个拥有十个宇宙的世界,这些宇宙特点各异,有的修仙功法,有的改造身体、有些科技点满、甚至有些行走阴阳两界。本作没有龙傲天只有一群少年游走......
4.6万字9个月前
恋爱在异世 连载中
恋爱在异世
三叶随笔
一场大战,一场硝烟,地球人江厌离气喘吁吁。他身后是一个年轻的女子,女子怀中抱着一个婴儿。他面前是一个强壮的男人,身着华丽长袍,面色阴沉,手中......
36.2万字9个月前
宿古:如似红川 连载中
宿古:如似红川
FiveDaisy
“黑色的羽毛将会和尽头的枙子花一起落下”
1.5万字9个月前
修仙老公别纳妾! 连载中
修仙老公别纳妾!
瑞giao是个没头脑
大家好,我是雪薇儿,我竟穿越到一个修仙小说里,在这里我的任务是禁止男主纳妾?不会吧,这要看男主帅不帅啊!“哥,你说人有时候是不是很双面?”“......
17.6万字9个月前
小说男女主设定资料 连载中
小说男女主设定资料
悒纪
小说男女主的设定,可以拿来用
2.5万字9个月前