假设标准学习目标下存在一个全局最优表示。那么,在足够的数据下,扩展模型(即使用更大的函数类 F 以及应该更有效地找到这个最优的更好近似,如 Figure 5. 所示。 在相同的训练目标下,即使是不同架构的更大模型,也倾向于趋向于这个最优值。当不同的训练目标共享相似的最小化器时,更大的模型更善于找到这些最小化器,并且将在训练任务上趋向于相似的解决方案。我们总结如下假设:
容量假设:更大的模型比更小的模型更可能趋向于共享表示。
通过 的趋同
在训练数据上到达相同的映射并不妨碍模型开发不同的内部表示。不难假设,一个拥有100万参数的模型用来检测狗的表示可能与一个拥有10亿参数的模型所用的表示截然不同。那么,是什么阻止了一个拥有十亿参数(甚至更多)的模型学习一个过于复杂和独特的表示?一个关键因素可能是简单性偏见:
简单性偏见假设:深度网络倾向于找到对数据的简单拟合,并且模型越大,这种偏见越强。因此,随着模型变大,我们应该预期它们趋同于一个更小的解决方案空间。
这种简单性偏见可能来自深度学习中常用的显式正则化 (例如权重衰减和dropout)。然而,即使没有外部影响,深度网络也自然遵循奥卡姆剃刀, 以拟合数据。Figure 7 展示了简单性偏见如何驱动趋同。
假设空间
简单性偏差
↓
↓ 解决任务的函数
↓
简单的功能 ←←← 简单性偏差
图8.视觉和语言中的颜色共现产生感知组织
简单性偏见假设:更大的模型覆盖所有可能拟合相同数据的方法范围更大。然而,深度网络的隐式简单性偏见鼓励更大的模型找到这些解决方案中最简单的。
我们趋向于何种表示?
到目前为止,我们希望已经说服读者,任务和数据压力,结合不断增加的模型容量,可以导致趋同。接下来,我们将注意力转向究竟这种趋同的终点是什么。
我们在 Figure 1 中提出的核心假设是,我们趋向的表示是生成我们观测数据的底层现实的统计模型。与多任务扩展假设一致,这种表示自然对许多任务有用(或至少对任何基于现实的任务有用)。此外,假设科学家们关于自然基本规律确实是简单函数的建议是正确的,那么这种表示可能相对简单,这与简单性偏见假设一致。
但我们究竟所说的“底层现实的统计模型”是什么意思。在本节中,我们用具体的数学陈述对这一定义进行形式化。重要的是,本节应被视为柏拉图表示形式的一个具体候选者;其他候选者可能来自其他建模假设。
一个理想化的世界
我们考虑一个如下运作的世界,与 Figure 1. 中的示意图一致。这个世界由一系列离散事件T 组成,表示为 Z ≜ [z₁,. . .,zᴛ] ,从某个未知分布 ℙ(Z) 中采样。每个事件可以通过各种方式观测到。一个观测是一个双射的确定性函数 obs:/Z ,将事件映射到一个任意的测量空间,如像素、声音、质量、力、扭矩、词等。在 第6节 中,我们讨论了可能反映真实学习场景的连续和无界世界以及随机观测的局限性和潜在扩展。
注意:Z是切的/Z,因为无法找出符号!
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。