数学联邦政治世界观
超小超大

柏拉图表示假说 (13-8)

假设标准学习目标下存在一个全局最优表示。那么,在足够的数据下,扩展模型(即使用更大的函数类 F 以及应该更有效地找到这个最优的更好近似,如 Figure 5. 所示。 在相同的训练目标下,即使是不同架构的更大模型,也倾向于趋向于这个最优值。当不同的训练目标共享相似的最小化器时,更大的模型更善于找到这些最小化器,并且将在训练任务上趋向于相似的解决方案。我们总结如下假设:

容量假设:更大的模型比更小的模型更可能趋向于共享表示。

通过 的趋同

在训练数据上到达相同的映射并不妨碍模型开发不同的内部表示。不难假设,一个拥有100万参数的模型用来检测狗的表示可能与一个拥有10亿参数的模型所用的表示截然不同。那么,是什么阻止了一个拥有十亿参数(甚至更多)的模型学习一个过于复杂和独特的表示?一个关键因素可能是简单性偏见:

简单性偏见假设:深度网络倾向于找到对数据的简单拟合,并且模型越大,这种偏见越强。因此,随着模型变大,我们应该预期它们趋同于一个更小的解决方案空间。

这种简单性偏见可能来自深度学习中常用的显式正则化 (例如权重衰减和dropout)。然而,即使没有外部影响,深度网络也自然遵循奥卡姆剃刀, 以拟合数据。Figure 7 展示了简单性偏见如何驱动趋同。

假设空间

简单性偏差

↓ 解决任务的函数

简单的功能 ←←← 简单性偏差

图8.视觉和语言中的颜色共现产生感知组织

简单性偏见假设:更大的模型覆盖所有可能拟合相同数据的方法范围更大。然而,深度网络的隐式简单性偏见鼓励更大的模型找到这些解决方案中最简单的。

我们趋向于何种表示?

到目前为止,我们希望已经说服读者,任务和数据压力,结合不断增加的模型容量,可以导致趋同。接下来,我们将注意力转向究竟这种趋同的终点是什么。

我们在 Figure 1 中提出的核心假设是,我们趋向的表示是生成我们观测数据的底层现实的统计模型。与多任务扩展假设一致,这种表示自然对许多任务有用(或至少对任何基于现实的任务有用)。此外,假设科学家们关于自然基本规律确实是简单函数的建议是正确的,那么这种表示可能相对简单,这与简单性偏见假设一致。

但我们究竟所说的“底层现实的统计模型”是什么意思。在本节中,我们用具体的数学陈述对这一定义进行形式化。重要的是,本节应被视为柏拉图表示形式的一个具体候选者;其他候选者可能来自其他建模假设。

一个理想化的世界

我们考虑一个如下运作的世界,与 Figure 1. 中的示意图一致。这个世界由一系列离散事件T 组成,表示为 Z ≜ [z₁,. . .,zᴛ] ,从某个未知分布 ℙ(Z) 中采样。每个事件可以通过各种方式观测到。一个观测是一个双射的确定性函数 obs:/Z ,将事件映射到一个任意的测量空间,如像素、声音、质量、力、扭矩、词等。在 第6节 中,我们讨论了可能反映真实学习场景的连续和无界世界以及随机观测的局限性和潜在扩展。

注意:Z是切的/Z,因为无法找出符号!

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

穿越成客栈老板娘 连载中
穿越成客栈老板娘
山河如酒
一觉醒来天塌了,穿越啦?!庆幸的是在这里找到了闺蜜闺蜜告诉我说这里是她写的一本小说。而我是个路人甲她穿成了女配还好我俩觉醒了系统我的系统我躺......
0.8万字6个月前
白色梦非语 连载中
白色梦非语
言君竹
这是一个随笔记录,记录一下我那随时爆发灵感的小宇宙还有生活中没有办法说和别人诉说的一些事情…… 各位看官,本文瞎胡写,我就这么一说您也就这么......
0.4万字6个月前
共进诛魔 连载中
共进诛魔
韩洛语
如有雷同,纯属巧合,禁止抄袭,一切为作者自创,有一点偏剧本的形式,不喜勿喷,谢谢!携手共进创佳绩,来世不悔共诛妖!“那是阴影,是过去!它不配......
5.1万字6个月前
涧春 连载中
涧春
五香瓜子仁
[已签约]一场让所有人匪夷所思的穿书,沐季珠以为的穿书,其实是夜渊一千两百年来的等待。
19.2万字6个月前
error404是我师傅 连载中
error404是我师傅
冰-暮-凌
*你只知道你认他为师傅,面前这个穿着白色连帽衫的骷髅貌似对你友好?至于为什么这么说,因为你知道他实力不是一般二般的强,但他从不攻击你,即使你......
8.1万字6个月前
魔女无忧姬 连载中
魔女无忧姬
光线下的颜色
她向她爱的人表达爱意,他在听后却杀死了她,并告诉她:“你只不过是我的牛、马、棋子,我并不会对那样悲贱的生物产生感情。你知道你为什会爱上我吗?......
9.1万字6个月前