|连载:阿里巴巴大数据实践—实时技术( 四 )
在有些业务场景下 , 可以关联T-1的数据 , 但T-1的数据是不全的 。 比如在T-1的晚上22:00点开始对维表进行加工处理 , 在零点到达之前 , 有两个小时可以把数据准备好 , 这样就可以在T的时候关联T-1的数据了 , 但是会缺失两个小时的维表变更过程 。
另外 , 由于实时任务是常驻进程的 , 因此维表的使用分为两种形式 。
全量加载:在维表数据较少的情况下 , 可以一次性加载到内存中 , 在内存中直接和实时流数据进行关联 , 效率非常高 。 但缺点是内存一直占用着 , 并且需要定时更新 。 例如:类目维表 , 每天只有几万条记录 , 在每天零点时全量加载到内存中 。
增量加载:维表数据很多 , 没办法全部加载到内存中 , 可以使用增量查找和LRU过期的形式 , 让最热门的数据留在内存中 。 其优点是可以控制内存的使用量;缺点是需要查找外部存储系统 , 运行效率会降低 。 例如:会员维表 , 有上亿条记录 , 每次实时数据到达时 , 去外部数据库中查询 , 并且把查询结果放在内存中 , 然后每隔一段时间清理一次最近最少使用的数据 , 以避免内存溢出 。
在实际应用中 , 这两种形式根据维表数据量和实时性能要求综合考虑来选择使用 。 注:本书中出现的部分专有名词、专业术语、产品名称、软件项目名称、工具名称等 , 是淘宝(中国)软件有限公司内部项目的惯用词语 , 如与第三方名称雷同 , 实属巧合 。
数据中台是企业数智化的新基建 , 阿里巴巴认为数据中台是集方法论、工具、组织于一体的 , “快”、“准”、“全”、“统”、“通”的智能大数据体系 。 目前正通过阿里云数据中台解决方案对外输出 , 包括零售、金融、互联网、政务等领域 , 其中核心产品有:
- Dataphin , 一站式、智能化的数据构建及管理平台;
- Quick BI , 随时随地 智能决策;
- Quick Audience , 全方位洞察、全域营销、智能增长;
- Quick A+ ,跨多端全域应用体验分析及洞察的一站式数据化运营平台 。
【|连载:阿里巴巴大数据实践—实时技术】 本文为阿里云原创内容 , 未经允许不得转载 。
推荐阅读
- 数据|智领云荣登“中国大数据企业50强” | 2020大数据产业生态大会盛大召开
- 大数据|华云数据荣获中国大数据50强、2020数字赋能先锋企业30强,入选大数据产业发展白皮书及百佳案例
- 驱动中国|即信Fintech智研中心:银行践行社交化运营的要诀--渠道通 交互通 数据通
- 行业互联网|华云数据荣获中国大数据50强、2020数字赋能先锋企业30强,入选大数据产业发展白皮书及百佳案例
- 技术编程|数据结构001之简介
- 行业互联网|爱数亮相第八届医药健康论坛,以数据赋能药企数字化
- 阿里巴巴|高水平的管理者都遵守的6条管理圣经,读懂这些,管理越来越顺
- 行业互联网|智领云荣登“中国大数据企业50强”| 大数据产业生态大会
- 互联网|图匠数据CTO梁柱锦:利用AI与大数据提升线下零售管理能力 | 公开课预告
- 青年|活动都有数据记录,离床久了会报警……人工智能养老进入武汉家庭
