训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头( 三 )


文章图片
他们发现 , 从随机初始化(标准RL方法)训练的RL策略几乎没有获得任何奖励 , 从不学习收集日志 , 而且很少收集木棍 。
与之形成鲜明对比的是 , VPT模型的微调不仅可以学习如何制作钻石镐 , 而且在收集所有物品方面的成功率 , 甚至达到人类水平 。
而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型 。
参考资料:
训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头】https://openai.com/blog/vpt/

相关经验推荐