数学联邦政治世界观
超小超大

柏拉图表示假说 (13-7)

functionclass ⊔

Hypothesis

space 2

✫ Hypothesis

Loss ✫ ★ space 2

Hypothesis

space 1 Hypothesis

– Scale up → space 1

architectures

图5.容量假设

容量假设:如果在函数空间中存在一个最优表示,则较大的假设空间更可能覆盖它。左:两个小模型可能无法覆盖最优值,从而找到不同的解决方案(由轮廓☆标记)。右:随着模型变大,它们覆盖最优值并收敛到相同的解决方案(由填充⋆标记)。

假设空间

任务梯度

↘↓↙

解决任务1

→ 解决任务2

任务梯度

图6.多任务扩展假设

多任务扩展假设:随着任务数量的增加,训练的模型承受压力,学习一种可以解决所有任务的表示。

通过任务普遍性的趋同

每个训练数据点和目标(任务)都会对模型施加额外的约束。随着数据和任务的扩展,满足这些约束的表示体积必须按比例变小,如图 Figure 6 所示并在下方阐述:

多任务扩展假设:适用于N 个任务的表示比适用于 M<N 个任务的表示要少。当我们训练能够一次解决更多任务的通用模型时,我们应该预期可能的解决方案会更少。

Cao & Yamins (2024) 之前将此称为逆变原则,指出一个简单目标的解决方案集合是大的,而一个具有挑战性目标的解决方案集合则相对较小。此外,我们认为这个更狭窄的解决方案集也具有更好的泛化能力。随着数据规模的扩大,优化经验风险 𝔼x ~ dₐₜₐₛₑₜ[Ը(f,x)] 的模型在总体风险 𝔼x ~ ᵣₑₐₗᵢₜy[Ը(f,x)] 上也会有所改进,并且在捕捉真实数据生成过程 reality 的统计结构方面表现更好。

最近的工作展示了数据规模与模型性能之间的幂律关系。这意味着在足够的数据下(例如,包括整个互联网和所有离线科学测量),应该趋同于一个具有不可约误差的非常小的解决方案集——这是世界固有的认知不确定性。随着更多模型在互联网规模的数据上进行训练,满足所有数据约束的解决方案集必须变得相对较小。

除了数据扩展,许多现代表示学习目标Ը(f,x) 直接优化多任务求解。对比学习在数据样本上找到一个距离结构,以优化许多分类任务。掩码自编码器优化随机抽样的重建任务。事实上,自回归语言建模也可以看作是优化多样的任务集。由于这些多任务目标对表示施加了更多任务约束,从而导致更小且质量更高的解决方案空间,它们可能比单任务目标(例如ImageNet分类)更有效。

通过模型容量的趋同

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

疯与邪骨 连载中
疯与邪骨
莺啼月洛
你决定开新坑了,这使你充满了决心其实讲的是我们(我们二姐妹的人形态,年龄会改变)遇到邪骨团的一些事,同为疯子的我们,会擦出怎样的火花呢?本书......
0.2万字1个月前
轩还瞳命,谁还秀情 连载中
轩还瞳命,谁还秀情
清雪岍月
因为叶灵瞳的威胁,使蓝轩宇不得不做她男朋友,而因此,他也失去了白秀秀,白秀秀回到家中,恢复了她前世记忆,也恢复了能力,他霸气十足的回到史莱克......
0.8万字4周前
且听凤鸣:凤鸣九天 连载中
且听凤鸣:凤鸣九天
落羽烟愁
她,同她的姐姐凤舞一同出生。因一场意外,从现代穿越到这。是现代的中药医师,可医死人、生白骨。殊不知,她本就属于这里。这个呢,可能会有很大的改......
5.3万字4周前
神兽金刚之林聪and.叶辉 连载中
神兽金刚之林聪and.叶辉
残梦碎城
1.1万字4周前
快穿之功成身退 连载中
快穿之功成身退
稷昶
许久未更,惭愧。祝福读者们未来更好,前途似锦。禁未成年。
3.8万字4周前
三生三世枕上书番外 连载中
三生三世枕上书番外
春沐雪
(作者喜欢迪丽热巴,也喜欢这本书,所以决定自己写写)我命由我不由天,即使三生石没有我的名字,我也要与他斗到底!因为……我喜欢你
1.2万字4周前