甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析( 三 ) AlphaGoZero是Deepmind最后一代AI围棋

原则1: 通过Value Network减少搜索的深度Value Network 通过预测给定局面的value来直接预测最终结果，思想和上一期Minimax DP 策略中直接缓存当前局面的胜负状态一样，减少每次必须靠模拟到最后才能知道当前局面的输赢概率，或者需要多层树搜索才能知道输赢概率。

原则2: 通过Policy Network减少搜索的宽度搜索广度的减少是由Policy Network预估来达成的，将下一步搜索局限在高概率的动作上，大幅度提升原先MCTS新节点生成后冷启动的搜索宽度。
神经网络结构AlphaGo Zero 使用一个单一的深度神经网络来完成policy 和value的预测。具体实现方式是将policy network和value network合并成一个共享参数的双头网络。其中z是真实游戏结局的效用，范围为[-1, 1]。

Monte Carlo Tree Search (MCTS) 建立了棋局搜索树，节点的初始状态由神经网络输出的p和v值来估计，由此初始的动作策略和价值预判就会建立在高手的水平之上。模拟一局游戏之后向上回溯，会同步更新路径上节点的统计数值并生成更好的MCTS搜索策略。进一步来看， MCTS和神经网络互相形成了正循环。神经网络指导了未知节点的MCTS初始搜索策略，产生自我对弈游戏结局后，通过减小和的 Loss，最终又提高了神经网络对于局面的估计能力。神经网络value network的提升也是通过不断减小网络预测的结果和最终结果的差异来提升。因此，具体神经网络的Loss函数由三部分组成， value network的损失， policy network的损失以及正则项。
【甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析】损失函数
AlphaGo Zero MCTS 具体过程
AlphaGo Plays Games Against Itself
AlphaGo Zero的MCTS和传统MCTS都有相似的四个过程，但AlphaGo Zero的MCTS步骤相对更复杂。首先，除了W/N统计指标之外， AlphaGo Zero的MCTS保存了决策边 a|s 的Q(s,a)：Action Value ，也就是Q-Learning中的Q值，其初始值由神经网络给出。此外， Q 值也用于串联自底向上更新节点的Value值。具体说来，当某个新节点被Explore后，会将网络给出的Q值向上传递，并逐层更新父节点的Q值。当游戏结局产生时，也会向上更新所有父节点的Q值。此外对于某一游戏局面s进行多次模拟，每次在局面s出发向下探索，每次探索在已知节点按Selection规则深入一步，直至达到未探索的局面或者游戏结束，产生Q值后向上回溯到最初局面s ，回溯过程中更新路径上的局面的统计值或者Q值。在多次模拟结束后根据Play的算法，决定局面s的下一步行动。尽管每次模拟探索可能会深入多层，但最终play阶段的算法规则仅决定给定局面s的下一层落子动作。多次向下探索的优势在于：

甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析( 三 )

推荐阅读

我们市场上面遇到的价值上千万级别的钱币，遇到最好绕道走

怎样看待北京市金融业十三五规划提出建成国际金融中心上海的定位日后

子宫前位■子宫前位是什么意思

谢容儿演过的电影——谢容儿歌手哪里人

培育钻石和天然钻石有区别吗？

【国家卫健委】欧盟向英国下“最后通牒”，英国政府“无视”了

款式|身材苗条不是错，但穿搭需遵循三要素，以免穿成“纸片人”！

『向上呀宝贝』女大却不避父”？背后原因，揭示亲子相处原则，为什么“儿大避母

彩云时尚编发|长裙能展现女人魅力，大裙摆款式的裙子，穿在身上就像是仙女一样

七弦琴是一种什么乐器？七弦琴是一种什么乐器

大众新闻皮卡解禁风愈刮愈烈，长城炮火遍全国

北京有多好找工作要北京找还是回家

综艺|欣赏《起舞吧齐舞》第二季的开季之舞！

冰种翡翠|? 高冰种和玻璃种有何区分? 该如何准确地区分二者之间的不同?

美军|美军U-2擅闯当天即严正交涉，中方已保持极度克制，能否直接击落？

亮剑军神：俄罗斯一万八千米，歼20令人欣喜，五代机实用升限：美国两万米

斗玩网|虎牙S10：苏宁痛失冠军！LCK重回第一赛区，网友直呼不如现场找代打

巴黎潮仔|小姐姐仿妆“杨颖”，开局：以为认不清现实，结尾：粉丝都分不出

应急|男子一口气拍361张照片举报……，国庆堵在高速上

四季豆炒肉原来竟可以这样做