数学联邦政治世界观
超小超大

Learn General world models (2-1)

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。

相关小说

穿书之救赎女主计划 连载中
穿书之救赎女主计划
苦逼小学生
白羽穿越了一本修仙世界,成为了一名悲催大反派,最后又被女主一剑穿心。白羽——(自动省过10000字脏话)6有点刀子,但更多还是沙雕风,有男主......
5.1万字4周前
猫小九专辑 连载中
猫小九专辑
星之灭亡
猫七夜和猫小九
0.2万字4周前
蛇夫的心尖宠 连载中
蛇夫的心尖宠
不染莫尘
我叫墨灵儿,八岁时生了一场大病,后来我不仅完好无损,还被蛇夫宠成了心尖宝贝……1.女主是绝对的潜力股,后期文章更精彩2.中间会有be,非常好......
9.0万字4周前
重生之冷艳妖皇要逆天 连载中
重生之冷艳妖皇要逆天
妖皇紫魅
(小可爱们如果想交流一下的话,可以加这个群来一起聊天哦!互动群:1065689411)她,是上天宠儿,亦是九幽使者。一朝陨落,重临世间,竟已......
10.6万字4周前
小甜饼合集(小短篇) 连载中
小甜饼合集(小短篇)
锦华佑
1.0万字4周前
我与天道为敌 连载中
我与天道为敌
树街黑猫
传说在这个世上,有上千上万个世界位面,每个世界位面都有不同的规则。而有一个人掌管着这些世界,此人便是天道。有一人杀了天道,只留一人,而这个人......
5.3万字4周前