|连载:阿里巴巴大数据实践—实时技术( 四 )


在有些业务场景下 , 可以关联T-1的数据 , 但T-1的数据是不全的 。 比如在T-1的晚上22:00点开始对维表进行加工处理 , 在零点到达之前 , 有两个小时可以把数据准备好 , 这样就可以在T的时候关联T-1的数据了 , 但是会缺失两个小时的维表变更过程 。
另外 , 由于实时任务是常驻进程的 , 因此维表的使用分为两种形式 。
全量加载:在维表数据较少的情况下 , 可以一次性加载到内存中 , 在内存中直接和实时流数据进行关联 , 效率非常高 。 但缺点是内存一直占用着 , 并且需要定时更新 。 例如:类目维表 , 每天只有几万条记录 , 在每天零点时全量加载到内存中 。
增量加载:维表数据很多 , 没办法全部加载到内存中 , 可以使用增量查找和LRU过期的形式 , 让最热门的数据留在内存中 。 其优点是可以控制内存的使用量;缺点是需要查找外部存储系统 , 运行效率会降低 。 例如:会员维表 , 有上亿条记录 , 每次实时数据到达时 , 去外部数据库中查询 , 并且把查询结果放在内存中 , 然后每隔一段时间清理一次最近最少使用的数据 , 以避免内存溢出 。
在实际应用中 , 这两种形式根据维表数据量和实时性能要求综合考虑来选择使用 。 注:本书中出现的部分专有名词、专业术语、产品名称、软件项目名称、工具名称等 , 是淘宝(中国)软件有限公司内部项目的惯用词语 , 如与第三方名称雷同 , 实属巧合 。
数据中台是企业数智化的新基建 , 阿里巴巴认为数据中台是集方法论、工具、组织于一体的 , “快”、“准”、“全”、“统”、“通”的智能大数据体系 。 目前正通过阿里云数据中台解决方案对外输出 , 包括零售、金融、互联网、政务等领域 , 其中核心产品有:

  • Dataphin , 一站式、智能化的数据构建及管理平台;
  • Quick BI , 随时随地 智能决策;
  • Quick Audience , 全方位洞察、全域营销、智能增长;
  • Quick A+ ,跨多端全域应用体验分析及洞察的一站式数据化运营平台 。

【|连载:阿里巴巴大数据实践—实时技术】 本文为阿里云原创内容 , 未经允许不得转载 。


推荐阅读