数学联邦政治世界观
超小超大

Learn General world models (2-1)

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

冰层下的秘密 连载中
冰层下的秘密
一枝春只
幸福只差一步
0.2万字4个月前
是梦还是?我已陷入 连载中
是梦还是?我已陷入
程捷_69473298369067015
一个对自己所在城市失去希望的人,因为一次偶然发现另一个世界。在这她有会遇到什么?
0.2万字4个月前
快穿之宿主又飘了 连载中
快穿之宿主又飘了
执子右zzyo
【1v1双洁,男女主都是同一人】【Bad】一个深夜聊sao的文社√位面一:真假千金肤白貌美假千金VS落魄心机大反派(已完结)位面二:重生逆袭......
34.5万字4个月前
时黎:你跑不掉了 连载中
时黎:你跑不掉了
许颖希
时黎:你跑不掉了
1.0万字4个月前
偏执观:待你初恋千年 连载中
偏执观:待你初恋千年
宋贤洋
「我们都是因对方而疯狂的病人」裴允,生于两千年前一个名为御安国的时代,在那个时代含冤与怨而亡,可能因怨气过重,原本被安存在“留魂骷”的她又活......
4.3万字4个月前
稀饭还是喜欢 连载中
稀饭还是喜欢
肖艺韩
当喜欢这个词被来自现实世界的她知道,她会不会喜欢那个来自另一个时空的他,但他究竟是谁?一位是自己的护卫,一位是与自己门当户对的男士,明明心里......
3.5万字4个月前