|小红书推荐大数据在阿里云上的实践
小红书推荐业务架构
本文插图
首先这个图上画了一些比较典型的推荐业务 , 使用大数据的主要模块 , 其中最左边是线上推荐引擎 , 一般推荐引擎会分成召回、排序、后排等几步 , 在这里就不细说了 。 主要是从大数据的角度来说 , 推荐引擎主要是运用预测模型来预估用户对每个候选笔记的喜欢程度 。 根据一定的策略来决定给用户推荐哪些笔记 。 推荐模型在运用时需要抓取笔记特征 , 这些特征又会回流到我们的训练数据中 , 来训练新的模型 。 推荐引擎返回笔记之后 , 用户对笔记的消费行为 , 包括展示、点击、点赞等行为 , 会形成用户的行为流 。 这些用户行为流结合了特征流 , 从而产生了模型训练的数据来迭代模型 。 结合用户和笔记的信息之后 , 就会产生用户和笔记画像和推荐业务所用到的一些分析报表 。 经过一年多的改造 , 小红书在推荐场景中 , 除了从分析数据到策略这一块 , 需要人为参与迭代策略之外 , 其他的模块的更新基本上是做到了实时或近实时的进行 。
推荐业务的实时计算应用
本文插图
这里稍微展开讲一下特征和用户行为的数据回流之后的实时计算 , 以及我们怎么使用他们产生的数据 。 在推荐引擎产生特征流的时候 , 特征流因为量特别大 , 包括了所有推荐返回的笔记 , 大概有近百篇 , 以及这些笔记的所有特征 , 所以这些特征总共大概有大几百个 。 目前我们的做法是把特征写到一个我们自研的高效的kv中缓存几个小时 , 然后用户行为数据是从客户端打点回流 , 然后我们就开始了数据流的处理 。
我们第一步是把客户端打点的用户行为进行归因和汇总 。 这里讲一下什么是归因和汇总 。 因为在小红书的APP上面 , 客户端的打点是分页面的 , 比如说用户在首页推荐中看了笔记并进行了点击 , 点击之后用户就会跳转到笔记页 , 然后用户在笔记页上浏览这篇笔记并进行点赞 。 同时用户可能会点击作者的头像进入作者的个人页 , 并在个人页中关注了作者 。 归因是指把这一系列的用户行为都要算作首页推荐产生的行为 , 而不会和其他的业务混起来 。 因为搜索用户 , 在搜索中看到同样一篇笔记 , 也可能返回同样的结果 。 所以我们要区分用户的行为到底是由哪一个业务所产生的 , 这个是归因 。
然后汇总指的是用户的这一系列行为 , 关于同一篇笔记 , 我们会产生一条汇总的记录 , 汇总的记录可以便于后续的分析 。 然后归因之后 , 会有一个实时的单条用户行为的数据流 。 而汇总这边 , 因为有一个窗口期 , 所以汇总的数据一般会延迟目前大概是20分钟左右 。 当我们产生归因和汇总的数据流之后 , 我们就会补充上一些维表的数据 , 我们会根据用户笔记来找当时我们推荐产生的特征 , 同时我们也会把一些用户的基础信息和笔记的基础信息加到数据流上 。 这里面其实主要有4个比较重要的用户场景 , 第一个场景是产生分业务的Breakdown的信息 , 这个主要是能知道某一个用户在不同的笔记维度 , 他的点击率和一些其他的业务指标 , 同时我也可以知道某一篇笔记针对不同的用户 , 它产生的点击率 , 这个是我们在实时推荐当中一个比较重要的特征 。 另外一个很重要的是我们实时分析的一个宽表 , 宽表是我们把用户的信息、笔记信息和用户笔记交互的汇总信息 , 都变成了一个多维度的表 , 进行实时分析 , 这个后面会更加详细的和大家讲述 。 然后还有两个比较重要的 , 一个是实时训练的信息 , 训练的信息就是我把用户和笔记交互的信息扩充了 , 当时排序的时候抓起的特征 , 这特征加上一些我们汇总出来的标签 , 就给模型进行训练来更新模型 。 然后另外一个就是我所有的汇总信息都会进入离线数据数仓 , 然后会进行后续的一些分析和报表的处理 。
推荐阅读
- 数据|首届数字共青发展高峰论坛顺利召开,海云数据智能智造研发基地同期揭牌
- iQOO手机|120Hz高刷屏手机推荐!手游玩家必看 吃鸡上分美滋滋
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 直播|“双11”刷单刷量频现 直播新规直指数据“注水”
- 直播|直播带货将迎最强监管 国家网信办征言:严禁点赞、交易等数据流量造假
- 超能网|Ryzen 7 5700U亮身Geekbench数据库,依然是Zen 2架构
- 钛媒体APP|汪涵直播带货“翻车”?网信办出新规:对数据造假严厉打击
- 华为|堆料级线材,华为5A线取得京东双十一数据线销量冠军
- 互联网|周宏仁:工业互联网核心是先进的数据分析和处理
- 实舟软件推荐|如果还没有用过这3款神器,那办公室的生活将会多么的枯燥1.Worktile2. MoreExcel33.鹿班设计
