训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头( 三 )
文章图片
他们发现 , 从随机初始化(标准RL方法)训练的RL策略几乎没有获得任何奖励 , 从不学习收集日志 , 而且很少收集木棍 。
与之形成鲜明对比的是 , VPT模型的微调不仅可以学习如何制作钻石镐 , 而且在收集所有物品方面的成功率 , 甚至达到人类水平 。
而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型 。
参考资料:
【训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头】https://openai.com/blog/vpt/
相关经验推荐
- 林炜翔排位12小时,Doinb称他已经自闭:不是我队友为什么要安慰
- 部落冲突:公认首领五大招人手段,第一个一小时内能招满50人!
- TMA-112“乱杀”,“做事哥”训练赛一穿四,4AM夏季赛可能双赢
- 碎片商店更新一小时,墨子龙骑士无人问津,扁鹊救世之瞳成香饽饽
- 第五人格:《时光代理人》程小时&陆光建模内录!挂件特效拉满!
- AG小兽删微博做准备,训练赛轮换中辅战S组,网友吐槽打了伤疤忘疼
- 电竞选手一天的训练,不只是“打游戏”那么简单
- 迷你世界更新失败!玩家纷纷转玩MC,不到两个小时就成老玩家了!
- 迷你世界更新失败!玩家纷纷转玩MC,不到两个小时就成老玩家了!
- s28赛季更新一小时,新品战令销量翻倍,仅因王昭君1级战令撑排面
