像AlphoGo一样应用强化学习进行游戏对战( 三 )


这种方法的最大缺点是代理丢失了信息——它必须使所有的与游戏的实际玩家不同 , 在它们中的任何一个发挥作用之前 。 虽然我们人类玩家倾向于在每个回合开始时制定计划 , 但拙劣的射击或冲锋会导致计划发生变化 。 这可能发生得非常突然 , 如果可能的话 , 我不想妨碍AI这样做 。 有了BigActions , AI无法利用我们都喜欢的Warhammer的动态来回特性 。 它还阻止了AI玩完整的游戏——乱序动作是规则的一部分 。
像AlphoGo一样应用强化学习进行游戏对战】3.每模型或每单元动作

相关经验推荐