数学联邦政治世界观
超小超大

Learn General world models (2-1)

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

送雪安眠 连载中
送雪安眠
落笔惊长安
这本小说偏日常些,不是什么虐的故事,女主没有cp,因为作者不会写,没谈过,也没兴趣,就没安排
3.4万字4周前
终焉的选择 连载中
终焉的选择
黑米糕中的西米露
喵~论我前世与你几次回眸今生是否还能厘清缘由情是否依旧心是否依旧偏爱是否依旧我们却心照不宣都沉默了好久论我们这宿命要转多久来生是否还红着脸牵......
0.6万字4周前
专属于你的 连载中
专属于你的
花外
一位在无意中刷到主播,从此成为他的小迷妹
0.2万字4周前
新葫之水神降临 连载中
新葫之水神降临
南笙殇城灬星河
建议从第五卷(或者第73章)开始看。
12.3万字4周前
米露的无限重生 连载中
米露的无限重生
琦柒七
你如果能回到18岁,你想做什么?你如果一直能回到18岁你又想做什么?是痛快地来一场诗与远方地说走就走地旅行,还是努力学习奋发向上,考一个好的......
20.8万字4周前
(ABO)我在 连载中
(ABO)我在
夏霖幽
小故事连载合集卷一《年少无为》在最美的年华里她曾想要有所作为,但终究输给了这个世界。年少无为,成了她的碑文。沈溪×乔羽卷二《燕归》本想做自由......
3.8万字4周前