|小红书推荐大数据在阿里云上的实践( 三 )
小红书OLAP数据的规模
本文插图
在高峰时候我们大概每秒钟有35万条用户行为被记入我们的实时计算当中 。 然后我们大宽表大概有300个字段 , 然后我们希望能够保持两周多大概15天左右的数据 , 因为我们在做实验分析的时候 , 经常需要看本周和上一周的数据的对比 , 然后我们大概每天有近千次的查询 。
小红书+Hologres
本文插图
我们在7月和阿里云的MaxComputer和Hologres进行了一个合作 。 Hologres其实是新一代的智能数仓的解决方案 , 它能够把实时和离线的计算都通过一站式的方法来解决 。 同时它的应用主要可以用在实时大屏、Tableau和数据科学当中 , 我们研究下来是比较适合我们的推荐场景的 。
小红书Hologres应用场景
本文插图
Hologres做的事情主要是对离线的数据进行了查询和加速 , 然后对离线的数据做表级别的交互查询响应 , 他就无须再做从离线把数据搬到实时数仓的这么一个工作 , 因为它都在里面了 。 整个实时数仓 , 它是通过搭建用户洞察体系 , 实时监控平台的用户数据 , 可以从不同的角度对用户进行实时诊断 , 这样可以帮助实施精细化的运营 。 这个其实对于我们用户大宽表来说也是一个非常适合的场景 。 然后它的实时离线的联邦计算可以基于实时计算引擎和离线数仓MaxCompute交互分析 , 实时离线联邦查询 , 构筑全链路精细化运营 。
Hologres VS Clickhouse
本文插图
在和阿里云MaxCompute合作之前 , 我们是自建了Clickhouse的集群 , 当时我们也是一个很大规模的集群 , 一共用了1320个core , 因为Clickhouse它不是一个计算存储分离的方案 , 所以当时我们为了节约成本 , 只存放了7天的数据 , 然后因为Clickhouse对于用户实验tag这个场景其实没有很好的优化 , 所以说我们当时查询超过三天的数据就会特别慢 。 因为是个OLAP场景 , 我们希望每次用户的查询能在两分钟之内出结果 , 所以是限制了我们只能查过去三天的数据 。 同时另外还有一个问题就是Clickhouse对于组件的支持是有些问题的 , 所以我们没有在Clickhouse集群上面配置组件 , 如果上游的数据流有些抖动 , 数据造成一些重复的情况下 , 下游的Clickhouse里面其实会有一些重复的数据 。 同时我们也是派了专人去运维Clickhouse , 然后我们通过调研发现 , Clickhouse如果你要做成集群版的话 , 它的运维成本还是很高的 。 所以我们在7月份的时候和阿里云合作 , 把我们推荐的一个最大的用户宽表迁移到了MaxCompute和Hologres上面 , 然后我们在Hologres上面一共是1200个core , 因为它是计算存储的方案 , 所以1200个core就足够我们使用了 。 但是我们在存储的方面是有更大的需求的 , 我们一共存了15天的数据 , 然后因为Hologres对于用户根据实验分组这个场景是做了一些比较定制化的优化 , 所以说我们现在可以轻松地查询7天到15天的数据 , 在这个根据实验组分组的场景下面 , 其查询的性能与Clickhouse相比是有大幅提升的 。 Hologres它其实也支持Primary Key , 所以我们也是配置了Primary Key , 我们在这个场景下面是用了insert or ignore这个方法 , 然后因为配置了Primary Key , 它就天然具有去重的功能 , 这样的话我们上游只要保证at least once , 下游的数据就不会有重复 。然后因为我们是放在阿里云上面 , 所以说是没有任何的运维的成本 。
推荐阅读
- 数据|首届数字共青发展高峰论坛顺利召开,海云数据智能智造研发基地同期揭牌
- iQOO手机|120Hz高刷屏手机推荐!手游玩家必看 吃鸡上分美滋滋
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 直播|“双11”刷单刷量频现 直播新规直指数据“注水”
- 直播|直播带货将迎最强监管 国家网信办征言:严禁点赞、交易等数据流量造假
- 超能网|Ryzen 7 5700U亮身Geekbench数据库,依然是Zen 2架构
- 钛媒体APP|汪涵直播带货“翻车”?网信办出新规:对数据造假严厉打击
- 华为|堆料级线材,华为5A线取得京东双十一数据线销量冠军
- 互联网|周宏仁:工业互联网核心是先进的数据分析和处理
- 实舟软件推荐|如果还没有用过这3款神器,那办公室的生活将会多么的枯燥1.Worktile2. MoreExcel33.鹿班设计
