|首家强化学习大规模落地工业应用,快手是如何做到的?( 二 )


快手核心推荐团队创新地采用强化学习重新定义了推荐排序技术:提出了基于强化学习的序列化排序框架 , 将输出 N 个视频序列的任务建模为连续进行 N 次决策的过程 , 依次从候选集中挑选出 N 个视频 。 强化学习排序模型端到端地完成整个推荐排序过程 , 从数百视频候选集中挑选出由数十个视频组成的有序列表 , 并返回展示给用户 。
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图
示意图:传统排序算法 vs 强化学习排序算法 。
在强化学习模型排序的过程中 , 每次挑选视频的目标都是最大化视频序列的整体「奖励」 , 例如优化视频序列的整体观看时长 。 「这个过程和下围棋的人工智能类似 , 」叶璨介绍道 。 「在下棋的过程中 , 棋手不能只考虑当前这步棋的收益 , 而需要有更长远、更全局的视角去考量 , 有时会需要牺牲短期利益 。 」视频推荐也可以按照这样的思路来进行建模 , 从视频序列角度优化整体的推荐效果 , 同时保证推荐内容的多样性 。
另外 , 强化学习排序算法可以保证更好的推荐精准性与实时性:在用户每次反馈(点击、点赞、转发...)发生之后 , 系统都会通过强化学习算法完成排序模型的在线更新 。
每个人都有机会与顶尖 AI 对战
除了视频推荐之外 , 快手的强化学习技术也已应用在了旗下的多款小游戏中 。 如果你玩过快手平台的斗地主、五子棋、斗兽棋、象棋等游戏 , 你的对手可能会是系统指派的人工智能 。
目前 , AI 陪玩可能会出现在新手期 , 或是游戏玩家数量低峰期 , 当然如果你的水平足够高 , 也会在最高难度上遇到「超越人类水平」的 AI , 感受一下 AlphaGo 带来的恐惧 。
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

在游戏 AI 领域 , 研究人员自 2018 年初就开始在游戏中尝试强化学习技术 。 游戏 AI 在快手游戏产品中的主要应用形态是陪玩 , 这对处于孵化阶段(用户数有限)的游戏产品尤为重要 。 从 2018 到 2019 年 , 游戏 AI 技术在快手的多款棋牌类游戏上完成了落地 , 支持了快手游戏业务的快速发展 。
强化学习已经重新定义了游戏 AI 的生产方式 。 在传统的游戏 AI 中 , 不论是基于规则的方法还是监督学习的方法都严重依赖于人类专家提供的经验和数据 , 最终实现的智能水平也相对有限 , 且无法实现动态的 AI 难度分级 。
而这一切对于强化学习游戏 AI 来说并不是难事 。 在游戏上 , 快手已应用了通用游戏 AI 算法框架 , 其使用基于自我博弈的强化学习技术(self-play reinforcement learning) , 不仅可以在特定游戏上扮演不同难度的 AI 玩家 , 还可以实现自动化生产:只需要输入游戏规则 , 不依赖人类经验或数据而完全由 AI 自我博弈产生数据 , 通过强化学习算法实现 AI 能力的训练和进化 。
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

这一技术的本质类似于 DeepMind 的围棋人工智能 AlphaGo Zero , 是基于自我博弈强化学习的通用算法框架 , 可以扩展到多个不同领域 , 由 AI 自我博弈产生训练数据 , 通过强化学习算法实现智能体的自我训练和性能提升 。
不过相比 AlphaGo , 快手游戏 AI 更加面向应用 , 它可以在线为成千上万的游戏玩家提供服务 , 不仅考虑了游戏 AI 的高水平 , 还兼顾了其他产品需求 , 包括 AI 智能分级(为不同水平的用户提供相应智能等级的 AI) , 拟人化等 。
落地核心业务 , 做最精准的流量分发
作为目前中国最大的流量平台之一 , 快手的流量生态包含了各种业务流量的混合 , 包括视频推荐、直播、运营、电商、广告等 , 内容对用户的精准触达 , 是快手的核心业务问题 。


推荐阅读