游戏葡萄 现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI( 五 )


我们这个AI让玩家自己选择打 , 他挑战别人的时候也可以用AI , 而且他也可以选择什么类型的AI 。 有了这样的AI之后 , 《逆水寒》1V1的代练就找不到了 。
游戏葡萄 现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
这是更多游戏上落地的效果 , 我们在格斗、棋牌 , 卡牌和体育游戏都有相关积累 。 这些AI已经上线部署了 , 现在就在用 。 右下角是正在测试的一款游戏 , 年底也是要上线的 , 这是其中的卡牌玩法 。
游戏方比较重视这个玩法 , 原来不太好做 , 因为卡牌很多 , 也不太好测卡组的平衡性 。 后来AI测试的时候 , 基本上达到了玩家体验的时候的感觉 。 因为我们有酒馆 , 这个场景下 , AI的使用率达到70% , 30%是玩家之间打 。 具体来讲 , 第一是打我们的AI受挫感比较低 , 第二没有人知道他打AI输了 。 他在酒馆设计自己的套路和想法是非常适合的 。
游戏葡萄 现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
还有一些附加的效果 , 强化学习还能做一些什么事情?比如说刚刚讲的平衡性测试 , 我们在《逆水寒》里面做过 , 龙吟这个职业上线前做过一些平衡性测试 , 去看一下它跟其他职业整体对战的效果 。
第一版给我们测之前 , 训完AI效果大概就是——这个职业碾压所有其他职业 , 而且碾压度非常高 , 是完虐型的打法 。 然后我们给开发组提供数据 , 给他们截了一些视频 , 他们看过之后做了一些数值、技能迭代 。 迭代完以后再测 , 测完后再给新版本 。 龙吟上线之后经历过三次版本 , 可以看到上线的效果 , 做种版本没有起初的那种碾压效果 。

强化学习也有很多问题 , 比如拟人化的游戏AI 。 怎么解决这个问题 , 一种比较简单的想法:用专家数据进行模仿学习 。 这里有个很大的问题是需要数据 , 如果是“像人”的话 , 接受学习肯定需要大量的玩家数据 。 这里存在一个悖论 , 游戏对于AI最大的需求是游戏上线之后一开始那段时间 , 玩家不多的时候让AI活跃游戏 。 当然 , 像《王者荣耀》那样热门的游戏 , 可能AI的需求度没那么高 , 因为玩家之间所有的难度匹配都能满足需求 。
而如果游戏还没上线 , 游戏刚开始的时候需要AI , 我们数据从哪儿来?没有那么多的玩家 , 这是一个比较大的问题 。
游戏葡萄 现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
另外 , 采集数据的时候是需要预处理的 , 预处理工作量比较大 。 还有一个困难 , “像人”是主观的 , 实际上我们发现它非常主观 , 每个人都有自己的想法 , 关于像人到底是什么也是非常大的问题 , 怎么样评价像人这样一个指标?我们能想到的一点 , 是让玩家测试 , 直接让玩家做一些黑箱测试 , 让他判断对面是人还是AI 。 但这个成本比较高 , 因为要请一些玩家测试 。 怎么样通过数据评价?这是比较难的问题 。
游戏葡萄 现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
还有一个问题在模型上线之前 。 模型是个神经网络 , 很多时候动作会输出一些不合人类逻辑、常识的行为出来 。 所以策划跟QA一般给会很多意见 , AI上线之后 , 持续迭代的过程中也会给很多意见 。 怎么样把这些意见跟模型结合起来?这也是比较大的问题 , 也有点难 。
比较简单的 , 可能我在流程图里面插一些规则 , 在某些策划的强制建议里面走强制建议就行了 。 但这个时候也会出现意想不到的情况 , 比如说模型的输出跟策划的输入是矛盾的 。 因为可能没法控制模型它到底是什么行为 , 它有自己的想法 , 还有可能是对的 , 只是不符合我们的认知而已 , 有可能会出这样的一些死循环 。
还有另一个比较大的需求——就是不仅需要拟人化的高水平AI , 还希望AI的打法多一些 , 提升玩家乐趣 。 我们做过尝试 , 在《逆水寒》中做了多样化的AI 。 比如说右边这三个神像 , 有三种完全不同的打法 。 平衡型的可能符合正常人的思路 , 还有激进型的、保守型的 。 我们这边的一些经验 , 是可以结合进化算法来做的 , 进化算法跟强化学习产生多种高水平的AI 。 进化算法比强化学习还高 , 这两种结合的要求会更高 , 成本可能会超出我们目前能够承受的门槛 。


推荐阅读