业务|滴滴基于 Flink 的实时数仓建设实践( 二 )
命名规范:ODS 层实时数据源主要包括两种。
一种是在离线采集时已经自动生产的 DDMQ 或者是 Kafka topic,这类型的数据命名方式为采集系统自动生成规范为:cn-binlog-数据库名-数据库名 eg:cn-binlog-ihap_fangyuan-ihap_fangyuan
一种是需要自己进行采集同步到 kafka topic 中,生产的topic命名规范同离线类似:ODS 层采用:realtime_ods_binlog_{源系统库/表名}/ods_log_{日志名} eg: realtime_ods_binlog_ihap_fangyuan
2.2 DWD 明细层建设
根据顺风车业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表;结合顺风车分析师在离线侧的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,完成宽表化处理,之后基于当前顺风车业务方对实时数据的需求重点,重点建设交易、财务、体验、安全、流量等几大模块;该层的数据来源于 ODS 层,通过大数据架构提供的 Stream SQL 完成 ETL 工作,对于 binlog 日志的处理主要进行简单的数据清洗、处理数据漂移和数据乱序,以及可能对多个 ODS 表进行 Stream Join,对于流量日志主要是做通用的 ETL 处理和针对顺风车场景的数据过滤,完成非结构化数据的结构化处理和数据的分流;该层的数据除了存储在消息队列 Kafka 中,通常也会把数据实时写入 Druid 数据库中,供查询明细数据和作为简单汇总数据的加工数据源。
命名规范:DWD 层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过 40 个字符,并且应遵循下述规则:realtime_dwd_{业务/pub}_{数据域缩写}__
{业务/pub}:参考业务命名
{数据域缩写}:参考数据域划分部分
{自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义 样例:realtime_dwd_trip_trd_order_base
2.3 DIM 层
公共维度层,基于维度建模理念思想,建立整个业务过程的一致性维度,降低数据计算口径和算法不统一风险;
DIM 层数据来源于两部分:一部分是 Flink 程序实时处理ODS层数据得到,另外一部分是通过离线任务出仓得到;
DIM 层维度数据主要使用 MySQL、Hbase、fusion 三种存储引擎,对于维表数据比较少的情况可以使用 MySQL,对于单条数据大小比较小,查询 QPS 比较高的情况,可以使用 fusion 存储,降低机器内存资源占用,对于数据量比较大,对维表数据变化不是特别敏感的场景,可以使用HBase 存储。
命名规范:DIM 层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过 30 个字符,并且应遵循下述规则:dim_{业务/pub}_{维度定义}:
{业务/pub}:参考业务命名
{维度定义}:参考维度命名
{自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义 样例:dim_trip_dri_base
2.4 DWM 汇总层建设
在建设顺风车实时数仓的汇总层的时候,跟顺风车离线数仓有很多一样的地方,但其具体技术实现会存在很大不同。
第一:对于一些共性指标的加工,比如 pv,uv,订单业务过程指标等,我们会在汇总层进行统一的运算,确保关于指标的口径是统一在一个固定的模型中完成。对于一些个性指标,从指标复用性的角度出发,确定唯一的时间字段,同时该字段尽可能与其他指标在时间维度上完成拉齐,例如行中异常订单数需要与交易域指标在事件时间上做到拉齐。
第二:在顺风车汇总层建设中,需要进行多维的主题汇总,因为实时数仓本身是面向主题的,可能每个主题会关心的维度都不一样,所以需要在不同的主题下,按照这个主题关心的维度对数据进行汇总,最后来算业务方需要的汇总指标。在具体操作中,对于 pv 类指标使用 Stream SQL 实现 1 分钟汇总指标作为最小汇总单位指标,在此基础上进行时间维度上的指标累加;对于 uv 类指标直接使用 druid 数据库作为指标汇总容器,根据业务方对汇总指标的及时性和准确性的要求,实现相应的精确去重和非精确去重。
第三:汇总层建设过程中,还会涉及到衍生维度的加工。在顺风车券相关的汇总指标加工中我们使用 Hbase 的版本机制来构建一个衍生维度的拉链表,通过事件流和 Hbase 维表关联的方式得到实时数据当时的准确维度
命名规范:DWM 层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过 40 个字符,并且应遵循下述规则:realtime_dwm_{业务/pub}_{数据域缩写}_{数据主粒度缩写}__{统计时间周期范围缩写}:
{业务/pub}:参考业务命名
{数据域缩写}:参考数据域划分部分
{数据主粒度缩写}:指数据主要粒度或数据域的缩写,也是联合主键中的主要维度
{自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义
{统计时间周期范围缩写}:1d:天增量;td:天累计;1h:小时增量;th:小时累计;1min:分钟增量;tmin:分钟累计 样例:realtime_dwm_trip_trd_pas_bus_accum_1min
2.5 APP 应用层
推荐阅读
- 贸易协议|英国与欧盟同意基于共同利益达成“微型”贸易协议
- 直播|断外链 、“扶”小店,抖音直播扛起电商业务大旗
- 理想|与滴滴合作或搁浅,理想要为二股东美团造车?
- 冯提莫 |冯提莫业务能力有多强?发布会现场猜歌,被誉为中华小曲库
- 补贴|遭百度、嘀嗒围攻,焦虑的滴滴发“百亿补贴”求增长
- 绘画|汉王科技爆发,整合绘画业务后净利预增6倍,引投资者密集调研
- 金融|马上消费金融上市获批,漫道金服旗下宝付助力持牌消金业务增长
- 广信|广信材料:PCB油墨业务筑根基,光刻胶研发终获突破
- 车展|基于CMF-EV平台 雷诺纯电SUV概念车将在下周亮相
- 经验教程|K12商学院:小鹅通助力我的业务从1到100
