训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头( 三 ) 编辑：好困拉燕袁榭【新智元

文章图片
他们发现，从随机初始化（标准RL方法）训练的RL策略几乎没有获得任何奖励，从不学习收集日志，而且很少收集木棍。
与之形成鲜明对比的是， VPT模型的微调不仅可以学习如何制作钻石镐，而且在收集所有物品方面的成功率，甚至达到人类水平。
而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型。
参考资料：
【训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头】https://openai.com/blog/vpt/

相关经验推荐

梨醋的发酵及制作方法,如何发酵蔬菜醋水
dnf武器在哪里强化最好 DNF武器在哪里强化
眼影防脱色的方法
熟羊肉冰箱可以放多久
温州市大学生驿站住宿天数要求多少温州大学暑期留宿
2021英文短语，微信英文短语大全
小儿肝炎的早期症状如何判断孩子是否得了肝炎及乙肝的危害
草莓需要授粉吗家里种草莓需要授粉吗
面巾纸的用途是什么
额头很多痘痘怎么办
刀切面煮多长时间刀削面煮多长时间能好
微波炉烤排骨怎么烤用微波炉怎样烤排骨
水柱义勇|《鬼灭之刃》放暑假！无惨老板应大家所求，出来晒太阳了！
梦见毒蛇是什么意思，睡觉梦见毒蛇是什么意思
换季护肤品怎么处理这样做用剩的护肤品不会浪费哦！
青梅是水果吗青梅是梅花结的果吗
泰拉瑞亚肉山怎么召唤条件泰拉瑞亚肉山召唤方法
他是神枪王是四大百人斩之一最后选择自刎?而死
脾虚的人喝什么茶比较好适合脾虚的人喝的恶茶
校服裤子怎么挽裤腿

林炜翔排位12小时,Doinb称他已经自闭:不是我队友为什么要安慰
部落冲突：公认首领五大招人手段，第一个一小时内能招满50人！
TMA-112“乱杀”，“做事哥”训练赛一穿四，4AM夏季赛可能双赢
碎片商店更新一小时，墨子龙骑士无人问津，扁鹊救世之瞳成香饽饽
第五人格：《时光代理人》程小时&陆光建模内录！挂件特效拉满！
AG小兽删微博做准备,训练赛轮换中辅战S组,网友吐槽打了伤疤忘疼
电竞选手一天的训练,不只是“打游戏”那么简单
迷你世界更新失败!玩家纷纷转玩MC,不到两个小时就成老玩家了!
迷你世界更新失败！玩家纷纷转玩MC，不到两个小时就成老玩家了！
s28赛季更新一小时，新品战令销量翻倍，仅因王昭君1级战令撑排面