网易互娱AI Lab技术主管:那些被强化学习解决的痛点( 二 )
比如我要出AABCCD这样一个动作 , 打第一张牌就会有几十种选择 , 第二张牌也一样 。 这么多选择组合起来 , 树型结构会使动作空间成指数级增长 。
我们的解决方案是把单步决策变成序列决策 。 也就是说 , 我们从游戏环境中得到状态 , 让AI决策第一张牌出什么 , 再把第一张牌和环境状态输入AI , 再做一次决策 , 之后的决策以此类推 。
最后 , 我们就可以输出一个持续的决策 , 再统一返回到游戏环境中 。 这样就可以把一步决策化为多步决策 , 把游戏空间从指数级降到常数级 。
我们对比一下强化学习跟行为树的AI:在加入新卡牌之后 , 强化学习需要的时间明显会比行为树少很多 。 且行为树只有3-5个等级 , 而强化学习具有100多个较为平滑的难度等级 。 另外 , 行为树还可能存在较大的难度跳跃 , 而强化学习能做到远高于玩家的水平 。

文章图片
我们也挑战了更难的游戏 , 参加了NeurIPS举办的MineRLDiamond比赛,这个比赛已经举办三届 , 每次都吸引了大量工业界、学术界的强队参加 。 其目的就是在《MineCraft》中 , 从砍树造工具开局 , 一直到实现挖掘钻石的目标 。
比赛举办以来 , 基本上没有队伍能在这种环境中挖到钻石 。 大多数队伍都选择了基于玩家数据训练 , 比如模仿学习 , 或在模仿学习组上再进行强化学习 。
但官方提供的数据其实不多 , 玩家的水平也参差不齐 , 所以其中会有很多无效操作 。 我们也尝试过用官方数据集训练 , 实际效果并不好 。 那我们能不能直接用强化学习从零开始训练呢?
可以 , 但要解决几个难点:环境输出以图像信息为主 , 而图像信息是3x64x64的图片 , 其信息维度是非常大的 。 要AI去遍历这么一个大空间的数据会非常困难 , 因此我们采用了CNN网络 , 以尽量降低复杂度、提出一些关键特征 。
另外 , 这个比赛需要AI有长期规划能力 。 比如它需要先从产木头开始 , 产够了木头才能去做木镐挖石头 , 挖到石头后制造石搞去挖铁……要做出这样一环扣一环的操作 , 需要AI在每个时刻都能知道自己的策略和下一步需要干什么 。 而在这么长的一段时间里 , 让AI盲目探索、直接训练 , 也会面临巨大挑战 。 我们做的主要工作 , 就是缩减它的探索空间 。
首先是动作编码 , 我们会把动作精简到只有20个 , 并根据当前局面屏蔽一些不需要的动作 。 这样一来 , AI每次可选的动作就会非常少;
其次 , 跳帧也是一个关键点 。 通过跳帧 , 我们可以把本来很长的游戏压缩成得较短 , 也让AI需要做的决策数目大大缩小 。 这就让我们能在较短时间内训练出较好的效果 。
更重要的是 , 要设置合理的奖励 。 原始的奖励方法 , 是在第一次采集资源获得奖励之后不能再获得奖励 。 这样的话 , 我们的AI可能就学不到要重复收集足够资源这一点 。 但如果每次都有奖励 , AI又可能会学出刷分行为 。
所以我们细致地调整了它的奖励方法 。 比如一开始会需要较多木头 , 后面就用不到了 。 所以我们一开始会给出重复奖励 , 到一定程度后才停止 。 另外 , 挖钻石的行为其实跟挖矿、挖石头的操作类似 , 都要不断挖掘 。 我们要鼓励这样的操作 , 所以挖石头、铁矿我们都会给出无限奖励 。
通过这样的策略 , 可以看到随着AI迭代 , 它的累积回报和挖到钻石的概率都在飞快上升 。 最后 , 我们以历史最高分获得了冠军 , 也是比赛举办以来第一次有队伍挖到钻石 。
相关经验推荐
- 无尽的拉格朗日:一句话,让网易替我种了一万棵树!
- 力压动视暴雪!网易连续五年蝉联全球游戏发行商50强第二,凭什么
- 王者荣耀再陷抄袭风波!公告图照搬时空旅人,网易欲成立抗鹅大队
- 网易《王者荣耀》再次涉嫌抄袭,腾讯将严肃处理
- 猫和老鼠游戏攻略及下载 网易猫和老鼠官网下载安装
- 产品多,突围难,网易这款SLG如何通过战略地图做创新切入?
- 我的世界联机方法 电脑版网易我的世界怎么联机
- 《网易棋牌》积分对决巅峰赛火热开启!
- 游戏日报:在抖音直播《梦幻西游》,屡劝不改被判赔网易54万余元
- 游戏日报: 在抖音直播《梦幻西游》, 屡劝不改被判赔偿网易54万余元
