|首家强化学习大规模落地工业应用,快手是如何做到的?


机器之心报道
编辑:泽南
快手的日活跃用户数量超过三亿 , 其背后是业界领先的人工智能技术 。
人工智能技术正被科技公司广泛应用在产品中 , 谷歌等公司已在搜索引擎中加入了 BERT 这样的预训练模型 , 而强化学习这种需要耗费大量算力的方法也已成为快手推荐系统的核心 。
近日 , 我们与快手核心推荐算法团队技术负责人 , 卡耐基梅隆大学博士叶璨聊了聊 , 他向我们介绍了快手在推荐系统等核心业务中引入强化学习技术的历程 , 以及大规模应用强化学习技术带来的业务收益 。
叶璨博士毕业于卡内基梅隆大学(CMU) , 此前曾担任百度资深架构师 。 他在 2017 年加入快手社区科学部 , 作为算法负责人负责推荐算法、强化学习、增长广告等技术方向 。 期间从 0 到 1 建立核心算法团队 , 主要工作之一是主导了强化学习技术在快手推荐等核心业务的落地及大规模应用 。
今天当我们在刷快手的时候 , 我们会获得什么样的体验?
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

「个性化推荐算法决定了 , 用户每一次刷快手时 , 会看到什么样的视频内容」叶璨博士说道 。 「推荐系统是快手生态体系的核心 , 而个性化推荐算法可以在每天新增数千万视频的海量视频库中 , 帮助用户高效地获取感兴趣的视频内容 , 最大程度吸引用户 , 提升用户留存和粘性 。 」
在快手的核心推荐算法团队 , AI 科学家和算法工程师们一直在不断迭代推荐的核心技术 , 打造业界最前沿的推荐算法、技术能力 , 希望给用户带来最好的内容推荐体验 。
强化学习技术这一 AI 领域的重要技术方向 , 在最近这波 AI 浪潮中 , 由 AlphaGo 而逐渐被人们所熟知 。 在推荐和广告算法领域 , 强化学习也在成为重要的技术趋势 。
快手平台上每天有数亿用户进行短视频内容的消费 , 而这背后有业界最大规模之一的推荐系统提供支持 。 超大规模的推荐系统也为最前沿的 AI 技术提供了创新平台 。 快手推荐团队在业界率先落地了基于强化学习技术的推荐系统 , 基于强化学习的推荐模型已在为数亿用户提供日常的推荐服务 。 它可以更精准、更实时地捕捉和满足用户的兴趣 , 并带来更好的内容多样性 。
基于强化学习的视频推荐
在 AlphaGo 中出现的强化学习算法 , 是如何帮助你刷快手的?具体来说 , 用户的每次推荐请求 , 都是由推荐系统从数千万的候选视频中挑选出数个视频返回给用户的 。 整个过程大致分为两个阶段:
召回:从千万量级的视频库中筛选出数百相关的候选视频 , 主要基于策略规则和简单模型 。
排序:从数百候选视频中挑选出最终展示的若干视频(一般为数十)返回给用户 , 这一阶段我们需要应用相对复杂、精准的模型 。 排序问题可以建模成从 M 个视频的候选集中挑选出 N 个视频组成的有序列表 。
|首家强化学习大规模落地工业应用,快手是如何做到的?
本文插图

由此可见 , 排序是推荐系统的核心任务 。 在这个过程中 , 传统推荐排序算法通常会采用 point-wise 排序框架 , 基于经验公式或者排序模型 , 「独立」地预估每个候选视频的排序分数 , 并按分数从高到低排序 , 截取 top N 视频返回 。
这一方法可能面临一个重要的问题:排序模型忽略了相邻视频间的影响 , 无法从视频序列的角度优化整体的推荐效果 , 这和信息流产品形态间存在天然的隔阂 。
如果用户喜欢某一类视频 , 传统方法会独立对每个候选视频打分 , 这就会倾向于将同类视频排到前面 , 造成推荐内容的同质化 , 长期如此很可能会造成用户对内容的厌倦 。 对此 , 传统方法还会加入基于规则的多样性打散策略 , 但这种思路显然不是最优方案 。


推荐阅读