甜野猫|组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析( 二 )
- Selection:从根节点出发 , 根据现有统计的信息和selection规则 , 选择子节点递归向下做决定 , 后面我们会详细介绍AlphaGo的UCB规则 。 图中节点的数字 , 例如根节点11/21 , 分别代表赢的次数和总模拟次数 。 从根节点一路向下分别选择节点 7/10, 1/6直到叶子节点3/3 , 叶子节点表示它未被探索过 。
- Expansion:由于3/3节点未被探索过 , 初始化其所有子节点为0/0 , 图中3/3只有一个子节点 。 后面我们会看到神经网络在初始化子节点的时候起到的指导作用 , 即所有子节点初始权重并非相同 , 而是由神经网络给出估计 。
- Simulation:重复selection和expansion , 根据游戏规则递归向下直至游戏结束 。
- Backpropagation:游戏结束在终点节点产生游戏真实的价值 , 回溯向上调整所有父节点的统计状态 。
权衡 Exploration 和 Exploitation在不断扩张决策树并收集节点统计信息的同时 , MCTS根据规则来权衡探索目的(采样不足)或利用目的来做决策 , 这个权衡规则叫做Upper Confidence Bound(UCB) 。 典型的UCB公式如下:w表示通过节点的赢的次数 , n表示通过节点的总次数 , N是父节点的访问次数 , c是调节Exploration 和 Exploitation权重的超参 。
传统UCB
假设某节点有两个子节点s1, s2 , 它们的统计指标为 s1: w/n = 3/4 , s2: w/n = 6/8 , 由于两者输赢比率一样 , 因此根据公式 , 访问次数少的节点出于Exploration的目的胜出 , MCTS最终决定从s局面走向s1 。
从第一性原理来理解AlphaGo Zero前一代的AlphaGo已经战胜了世界冠军 , 取得了空前的成就 , AlphaGo Zero 的设计目标变得更加General , 去除围棋相关的处理和知识 , 用统一的框架和算法来解决棋类问题 。
- 无人工先验数据改进之前需要专家棋手对弈数据来冷启动初始棋力
- 无特定游戏特征工程无需围棋特定技巧 , 只包含下棋规则 , 可以适用到所有棋类游戏
- 单一神经网络统一Policy Network和Value Network , 使用一个共享参数的双头神经网络
- 简单树搜索去除传统MCTS的Rollout 方式 , 用神经网络来指导MCTS更有效产生搜索策略
推荐阅读
- 刘哥说游戏|国乒四大世界冠军收到国际乒联邀请,将参加世界杯!但却引起争议
- 游戏老斯鸡|李白首次加入,史诗优化二选一,小乔有全皮肤的巨赚!,8号皮肤碎片升值了
- 羽墨说游戏|开创了一代经典玩法,却因BUG走向没落,曾火遍网吧的射击网游
- 火线游戏|打野直接首发,IG二队获LDL冠军!网友:上单来一队打替补
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 游戏资讯小驿站|我的世界拔刀剑模组:独特设定!帮助玩家更深入了解刀的制作
- 游戏领航员|10月16发售,《帝国时代3决定版》上线Steam
- 东方网|当夜跑遇上经典游戏Icon 全球首个吃豆人主题跑诞生
- 疯狂的游戏|更大动力,凯运蓝鲸大有可为,更大装载能力
- 游戏小怪兽|达仁星球:最新抖音直播留人控场方法和技巧
