|首家强化学习大规模落地工业应用,快手是如何做到的?( 三 )


快手在流量分发业务中大规模地应用了强化学习技术 , 比如最大的流量入口 - 个性化 tab 分发 , 以及各垂类产品在 feed 流中的精准分发 , 包括直播、游戏、音乐、社交等业务 。
比如用户每次打开快手 app , 强化学习算法会决定你跳转到发现、关注、同城中的哪个 tab 页面 。 强化学习接管的位置 , 是快手最大的流量分发入口 , 涉及主页三大 tab 页面的流量分配 , 影响 app 的使用时长、DAU(日活跃用户数量)等关键指标 。 算法会参考用户的行为偏好、习惯等进行流量分发 , 例如用户在特定时间段喜欢进入某个 tab 页进行消费 。 同时算法也会根据实时的 feed 信息进行主动引导 , 例如关注页有喜欢主播开播 , 会将用户跳转引导至关注页 。
在垂类业务的流量分发中 , 快手已在形态上改变了传统的推送方式 , 他们在 feed 流中插入垂类聚合页 , 由算法决定聚合页的展示时机 , 其中包括音悦台、游戏 TV、PYMK 、直播广场等垂类产品 。
在这里 , 基于传统的数据挖掘或策略规则无法做到实时准确 , 只有通过强化学习算法才能够实现精准分发 。 「如果内容被推送给了不合适的用户 , 或者在不合适的时机 , 展示聚合页入口 , 不仅难以形成垂类业务的消费和转化 , 还会影响用户正常的 feed 流体验 , 」叶璨说道 。
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

快手的算法以流量为粒度进行决策 , 每次决策的目标都是最大化一段时间内的整体收益 , 同时保持在线学习和更新 , 用户每次反馈后 , 强化学习决策算法都会更新模型 , 快速适应用户的行为习惯 。 通过不断强化用户反馈 , 系统逐渐收敛达到最优的流量分发策略 , 同时也保持了实时更新的能力 。
从零到一的探索
强大技术的背后 , 是快手核心推荐算法团队不懈的努力 。 早在 2018 年 , 快手就在推荐系统上开始尝试强化学习技术 。 「当时业界没有任何成熟落地的方案可以参考 , 」叶璨表示 。 「部分研究团队已经有一些论文 , 关于强化学习在推荐、广告、搜索领域的应用 , 但大多偏向于概念 , 距离实用化还有一段距离 。 而我们的目标一直是应用落地 , 我们希望能够用强化学习技术解决推荐系统的核心问题 。 」
快手成为了强化学习推荐技术的先行者 。 在推荐系统哪个阶段应用强化学习技术 , 应该采用哪类强化学习算法 , 强化学习推荐模型的在线训练框架应该如何设计等等 , 这些问题都是从零开始探索的 。
快手选择在推荐系统的核心——推荐排序阶段应用强化学习技术 , 它决定了应用最终向用户展示哪些视频 , 以及视频的排列顺序 。 在推荐算法领域 , 快手的 AI 科学家和算法工程师们完成了一项最前沿的技术突破 , 重新定义了推荐排序技术 , 使推荐系统具备了优化视频序列整体收益的能力 。
2018 年底 , 快手在新用户推荐上完成了强化学习排序算法的验证和成功上线 。 2019 年 , 这一技术拓展应用到了全量用户 , 完成了对推荐全流量的覆盖 。
现在 , 基于强化学习的推荐系统每天为数以亿计的快手用户提供着实时的个性化推荐服务 。 强化学习推荐技术的研发和落地 , 是快手推荐过去两年最重要的技术突破 。 这项技术也带来了更好的推荐效果和用户体验 , 推荐核心指标(如用户观看时长)的提升达到 10% 以上 , 这也是过去两年快手推荐单项技术上线带来的最大幅度的指标提升 。
与此同时 , 快手将目光瞄准新的应用场景 - 精准流量分发 。 在业界 , 快手创新地首次采用强化学习技术解决流量的精准分发问题 , 并将精准流量分发技术以中台化的形式输出至快手多个重要业务场景 。 目前在快手 , 这一技术已普及成为流量分发问题的常态化解决方案 。
快手的算法可以在不影响用户正常 feed 流体验的同时 , 最大程度地帮助不同的产品和业务在合适时机完成对合适用户的精准触达 , 从而形成有效的用户转化 。 在一些业务场景下 , 相对于传统策略 , 强化学习算法对分发效率提升达到了 100% 以上 。 通过先进的算法 , 快手确保了流量的精准触达 , 帮助不同垂类业务实现了有效的用户转化、规模增长 , 提升了用户粘性和业务壁垒 。


推荐阅读