|小红书推荐大数据在阿里云上的实践( 二 )
流计算优化—Flink批流一体
本文插图
然后我这里讲一下我们怎么运用Flink的一些新功能来优化流计算的过程 。 这里面我主要讲两点 , 其中第一点就是批流一体化 。
刚才说了我们把一个用户的行为根据笔记的行为汇总之后进行分析 , 这里的汇总的信息其实很多的 , 汇总信息当中 , 除了最简单的 , 比如说用户有没有点赞收藏这篇笔记 , 其实还有一些比较复杂的标签 , 比如说用户在笔记页上停留了多长时间 , 或者是说这篇笔记之前的点击是不是一个有效点击 , 我们对于某些广告场景或者有些场景下面 , 我们需要知道如果用户点击之后停留了比如说超过5秒 , 那么这个点击是有效的 。 那么像这种复杂的逻辑 , 我们希望在我们的系统当中只被实现一次 , 就可以同时运用在实时和批的计算当中 。 那么在传统意义上这点是很难的 , 因为大多数的实现中 , 批和流是两个版本 , 就是我们在Flink上面 , 比如说实现了一个版本的有效点击的定义 , 我们同时也会需要实现一个离线版本的有效点击的定义 , 这个可能是一个SQL写的版本 。 那么小红书是运用了FLIP-27里面的一个新的功能 , 日志文件是一个批的形式 , 它可以转换成一个流的形式 , 这样的话我就可以做到代码意义上的批流统一 。
流计算优化—Multi-sink Optimization
本文插图
那么还有一个Flink的功能就是一个在Flink 1.11上的Multi-sink Optimization 。 它的意思是我一份数据会写到多个数据应用上去 , 比如我会同时需要做张用户行为的宽表 , 同时也生成一份离线的数据 。 那么Multi-sink Optimization做的是 , 你只需要从Kafka里面读一次 , 如果是同一个key的话 , 他只需要去Lookup一次kv就可以产生多份数据 , 同时写到多个sink , 这样可以大大减少我们对Kafka的压力和对 kv查询的压力 。
小红书OLAP典型场景
本文插图
【|小红书推荐大数据在阿里云上的实践】
最后我讲一下我们的OLAP场景和阿里云MaxCompute、Hologres的一个合作 。 小红书在推荐业务下面有很多OLAP场景 , 这里我讲4个比较常见的场景应用 , 最常见的其实就是根据用户的实验组分组进行比较的一个实时分析 。 因为我们在推荐业务上面需要大量的调整策略或者是更新模型 , 然后每次调整策略和更新模型我们都会开一个实验 , 把用户放到不同的ABtest里面来比较用户的行为 。 那么一个用户其实在推荐当中会同时处于多个实验 , 在每一个实验里面是属于一个实验组 , 我们按实验分组做的实验分析 , 主要就是把一个实验拿出来 , 然后把用户的行为和汇总数据 , 根据这个实验当中的实验组进行分维度的分析 , 看看不同的实验组它的用户指标有什么差别 。 然后这个场景是一个非常常见的场景 , 但是也是计算量非常大的场景 , 因为它需要根据用户的实验tag进行分组 。
然后另外一个场景就是我们小红书的推荐其实是跑在了多个数据中心上面 , 不同的数据中心经常有一些变动 , 比如说是运维的变动 , 我们要起一个新的服务 , 或者是我们可能有些新的模型需要在某个计算中心先上线 , 那么我们需要一个端到端的方案去验证不同的数据中心之间的数据是不是一致 , 用户在不同数据中心的体验是不是一样 。 这个时候就需要我们根据不同的数据中心进行比较 , 比较用户在不同的数据中心当中产生的行为 , 他们最终的指标是不是一致 , 同样我们也用到了我们的模型和代码的发布当中 。 我们会看一个模型发布或者一份代码发布的老版本和新版本 , 他们产生的用户的行为的指标对比 , 看他们是不是一致 。 同样我们的OLAP还用在了实时业务指标的告警 , 如果用户的点击率和用户的点赞数突然有一个大幅的下降 , 也会触发我们的实时的告警 。
推荐阅读
- 数据|首届数字共青发展高峰论坛顺利召开,海云数据智能智造研发基地同期揭牌
- iQOO手机|120Hz高刷屏手机推荐!手游玩家必看 吃鸡上分美滋滋
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 直播|“双11”刷单刷量频现 直播新规直指数据“注水”
- 直播|直播带货将迎最强监管 国家网信办征言:严禁点赞、交易等数据流量造假
- 超能网|Ryzen 7 5700U亮身Geekbench数据库,依然是Zen 2架构
- 钛媒体APP|汪涵直播带货“翻车”?网信办出新规:对数据造假严厉打击
- 华为|堆料级线材,华为5A线取得京东双十一数据线销量冠军
- 互联网|周宏仁:工业互联网核心是先进的数据分析和处理
- 实舟软件推荐|如果还没有用过这3款神器,那办公室的生活将会多么的枯燥1.Worktile2. MoreExcel33.鹿班设计
