数学联邦政治世界观
超小超大

柏拉图表示假说 (13-8)

假设标准学习目标下存在一个全局最优表示。那么,在足够的数据下,扩展模型(即使用更大的函数类 F 以及应该更有效地找到这个最优的更好近似,如 Figure 5. 所示。 在相同的训练目标下,即使是不同架构的更大模型,也倾向于趋向于这个最优值。当不同的训练目标共享相似的最小化器时,更大的模型更善于找到这些最小化器,并且将在训练任务上趋向于相似的解决方案。我们总结如下假设:

容量假设:更大的模型比更小的模型更可能趋向于共享表示。

通过 的趋同

在训练数据上到达相同的映射并不妨碍模型开发不同的内部表示。不难假设,一个拥有100万参数的模型用来检测狗的表示可能与一个拥有10亿参数的模型所用的表示截然不同。那么,是什么阻止了一个拥有十亿参数(甚至更多)的模型学习一个过于复杂和独特的表示?一个关键因素可能是简单性偏见:

简单性偏见假设:深度网络倾向于找到对数据的简单拟合,并且模型越大,这种偏见越强。因此,随着模型变大,我们应该预期它们趋同于一个更小的解决方案空间。

这种简单性偏见可能来自深度学习中常用的显式正则化 (例如权重衰减和dropout)。然而,即使没有外部影响,深度网络也自然遵循奥卡姆剃刀, 以拟合数据。Figure 7 展示了简单性偏见如何驱动趋同。

假设空间

简单性偏差

↓ 解决任务的函数

简单的功能 ←←← 简单性偏差

图8.视觉和语言中的颜色共现产生感知组织

简单性偏见假设:更大的模型覆盖所有可能拟合相同数据的方法范围更大。然而,深度网络的隐式简单性偏见鼓励更大的模型找到这些解决方案中最简单的。

我们趋向于何种表示?

到目前为止,我们希望已经说服读者,任务和数据压力,结合不断增加的模型容量,可以导致趋同。接下来,我们将注意力转向究竟这种趋同的终点是什么。

我们在 Figure 1 中提出的核心假设是,我们趋向的表示是生成我们观测数据的底层现实的统计模型。与多任务扩展假设一致,这种表示自然对许多任务有用(或至少对任何基于现实的任务有用)。此外,假设科学家们关于自然基本规律确实是简单函数的建议是正确的,那么这种表示可能相对简单,这与简单性偏见假设一致。

但我们究竟所说的“底层现实的统计模型”是什么意思。在本节中,我们用具体的数学陈述对这一定义进行形式化。重要的是,本节应被视为柏拉图表示形式的一个具体候选者;其他候选者可能来自其他建模假设。

一个理想化的世界

我们考虑一个如下运作的世界,与 Figure 1. 中的示意图一致。这个世界由一系列离散事件T 组成,表示为 Z ≜ [z₁,. . .,zᴛ] ,从某个未知分布 ℙ(Z) 中采样。每个事件可以通过各种方式观测到。一个观测是一个双射的确定性函数 obs:/Z ,将事件映射到一个任意的测量空间,如像素、声音、质量、力、扭矩、词等。在 第6节 中,我们讨论了可能反映真实学习场景的连续和无界世界以及随机观测的局限性和潜在扩展。

注意:Z是切的/Z,因为无法找出符号!

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

无限梦魇的秘密 连载中
无限梦魇的秘密
小梦境
如往常一样上学,近乎无聊,病让忆牵分过分娇弱,忍受不了阳光刺激,无趣极了。他不想当一个任人欺辱弱小无助的人,隐藏着那分暴力和凌虐感,这样的日......
1.6万字1年前
神女系统:各位男神宠上天 连载中
神女系统:各位男神宠上天
浅笑微妆
妄忧阁(D.S文社)(每日更新)有一天陈星觅在去学校的路上,被一个不知名的物体砸中,送到了医院,而医生却解释不清到底为什么,视频中也未看见有......
25.3万字12个月前
梦幻花语 连载中
梦幻花语
月断红
《梦幻花语——花仙树上的王子》已完结1~105《梦幻花语——马戏团奇妙夜》连载中106~
7.0万字12个月前
执子手伴一生 连载中
执子手伴一生
殇ベ瞳荧
这本书是我和九幽V一起写的,由我来更新。男主韵是天帝第一废子,神龙绝脉,但却不知他后来不再是废子,天界众神官都知道韵只是天帝收养的义子,和天......
11.3万字12个月前
十二星座——准能如愿 连载中
十二星座——准能如愿
小雨不会下小雨
这里是十二星座故事,每个星座都有(打算重新写过程中)
3.6万字12个月前
世子今天犯病了吗 连载中
世子今天犯病了吗
蟾宫桂
今穿古×古穿今故事的最开始,顾念霖的母亲往家里领了一个孩子,顾念霖没想到,那个人会是沈砚。顾念霖更没想到,沈砚到来以后,她的梦都稀奇古怪起来......
9.1万字12个月前