在GSM8K上的性能(5张照片)
lla3-70b
0.8 -
0.6 -
mixial-8x7b
gemma-7b
ima3-8b
llama-65b
0.4
mistral-7b
LAN ha-33b
0.2 -
Gemma·2b
ma-13b
ama-7b
penllama-13bl lmo.7b
Bloom-1.7b Bloom-3b
penllama-7b
olmo-1b
Bloom-560m
Bloom-7.1b
0.0-
Bloom-1.1b
openllama-3b
0.16
0.18
0.22
0.24
0.20
0.26
0.14
对准VISION(DINOv2)
llama3-70b
0.701
混合的
赫拉斯瓦格
骆马·33
0.65
llama-65b
西北风-7b
na-1db iamae.8b
0.60 -
宝石-
ama-7b
lmo-7b
penllama-13b
0.55 -
上的性能
gemma-2b
penllama-7b
0.50
openllama-3b
olmo-1b
Bloom-7.1b
0.45 -
Bloom-3b
0.40 -
Bloom-1.7b
0.35 -
Bloom-1.1b
Bloom-560m
0.30 -
0.14
0.16
0.18
0.20
0.22
0.24
0.26
对准VISION(DINOv2)
图4.对齐预测下游性能
对齐预测下游性能:我们可视化了LLM对DINOv2的对齐得分与Hellaswag~(常识)和GSM8K~(数学)下游任务表现之间的相关性。LLMs的半径与模型大小成比例,并按语言建模分数的排名顺序 1 – bits–per–byte 进行颜色编码。我们观察到与视觉模型更紧密对齐的模型在下游语言任务中表现更好。对于Hellaswag,对齐得分和表现之间存在线性关系,而GSM8K则展示了“涌现”趋势。
表示正在跨模态趋同
不同数据模态训练的模型是否也在趋同?几项研究表明答案是肯定的。
Merullo et al. (2022) 将模型缝合扩展到跨模态设置,发现单个线性投影就足以将视觉模型与LLM缝合,并在视觉问答和图像描述任务上取得良好表现。Koh et al. (2023) 显示线性缝合也可以反向工作,将文本输入对齐到视觉输出。实际上,许多最新的语言-视觉模型都是通过缝合预训练的语言和视觉模型来实现的。例如,LLaVA通过使用两层MLP将视觉特征投影到语言模型中,展示了最先进的结果。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。