甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析( 四 )


  1. 探索和采样更多的叶子节点 , 在更多信息下做决策 。
  2. 通过average out多次模拟下一层落子决定 , 尽可能提升MCTS策略的下一步判断能力 , 提高 能力 , 更有效指导神经网络 , 提高其学习效率 。

甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析New Policy Network V' is Trained to Predict Winner
  1. Selection:
从游戏局面s开始 , 选择a向下递归 , 直至未展开的节点(搜索树中的叶子节点)或者游戏结局 。 具体在局面s下选择a的规则由以下UCB(Upper Confidence Bound)决定
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析其中 , Q(s,a) 和u(s,a) 项分别代表Exploitation 和Exploration 。 两项相加来均衡Exploitation和Exploration , 保证初始时每个节点被explore , 在有足够多的信息时逐渐偏向exploitation 。
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析
  1. Expand
当遇到一个未展开的节点(搜索树中的叶子节点)时 , 对其每个子节点使用现有网络进行预估 , 即
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析
  1. Backup
当新的叶子节点展开时或者到达终点局面时 , 向上更新父节点的Q值 , 具体公式为
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析
  1. Play
多次模拟结束后 , 使用得到搜索概率分布 pi 来确定最终的落子动作 。 正比于访问次数的某次方 , 其中tao为温度参数(temperature parameter) 。
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析
甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析New Policy Network V' is Trained to Predict Winner
参考资料
  • Youtube, Deepmind AlphaZero - Mastering Games Without Human Knowledge, David Silver
  • Mastering the game of Go with deep neural networks and tree search
  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
  • AlphaGo Zero论文解析
  • AlphaZero实战:从零学下五子棋(附代码)
频道定期发文AI , 算法 , 计算机技术 , 喜欢文章请给我点支持:关注 , 点赞 , 转发 。 中英文版本首发于 MyEncyclopedia 微信公众号 , 也欢迎大家关注 。 此文最佳阅读姿势请点击下方了解更多并在电脑版浏览器中打开 。 相关代码均在github/MyEncyclopedia中 。
著作权归作者所有 。 商业转载请联系作者获得授权 , 非商业转载请注明出处 。


推荐阅读