中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!( 三 )


  • 数据仓库层:DW(Data Warehouse):为数据仓库层 , DW层的数据应该是一致的、准确的、干净的数据 , 即对源系统数据进行了清洗(去除了杂质)后的数据 。 这一层的数据一般是遵循数据库第三范式的 , 其数据粒度通常和ODS的粒度相同 。 在DW层会保存BI系统中所有的历史数据 , 例如保存10年的数据
DW :Data Warehouse 翻译成数据仓库 , DW由下到上分为 DWD、DWB、DWS 。 DWD:Warehouse Detail 细节数据层 , 有的也称为 ODS层 , 是业务层与数据仓库的隔离层 DWB:Data Warehouse Base 基础数据层 , 存储的是客观数据 , 一般用作中间层 , 可以认为是大量指标的数据层 。 DWS:Data Warehouse Service 服务数据层 , 基于DWB上的基础数据 , 整合汇总成分析某一个主题域的服务数据 , 一般是宽表 。
  • 数据集市层:DM(Data Mart):为数据集市层 , 这层数据是面向主题来组织数据的 , 通常是星形或雪花结构的数据 。 从数据粒度来说 , 这层的数据是轻度汇总级的数据 , 已经不存在明细数据了 。 从数据的时间跨度来说 , 通常是DW层的一部分 , 主要的目的是为了满足用户分析的需求 , 而从分析的角度来说 , 用户通常只需要分析近几年(如近三年的数据)的即可 。 从数据的广度来说 , 仍然覆盖了所有业务数据 。
  • 应用层:Application层:这层数据是完全为了满足具体的分析需求而构建的数据 , 也是星形或雪花结构的数据 。 从数据粒度来说是高度汇总的数据 。 从数据的广度来说 , 则并不一定会覆盖所有业务数据 , 而是DM层数据的一个真子集 , 从某种意义上来说是DM层数据的一个重复 。 从极端情况来说 , 可以为每一张报表在APP层构建一个模型来支持 , 达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准 , 实际实施时需要根据实际情况确定数据仓库的分层 , 不同类型的数据也可能采取不同的分层方法 。
2. 为什么要对数据仓库分层?
  • 用空间换时间 , 通过大量的预处理来提升应用系统的用户体验(效率) , 因此数据仓库会存在大量冗余的数据
  • 解偶 , 如果不分层的话 , 如果源业务系统的业务规则发生变化将会影响整个数据清洗过程 , 工作量巨大
  • 通过数据分层管理可以简化数据清洗的过程 , 因为把原来一步的工作分到了多个步骤去完成 , 相当于把一个复杂的工作拆成了多个简单的工作 , 把一个大的黑盒变成了一个白盒 , 每一层的处理逻辑都相对简单和容易理解 , 这样我们比较容易保证每一个步骤的正确性 , 当数据发生错误的时候 , 往往我们只需要局部调整某个步骤即可 。
8
元数据介绍当需要了解某地企业及其提供的服务时 , 电话黄页的重要性就体现出来了 。 元数据(Metadata)类似于这样的电话黄页 。
1. 元数据的定义
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
2. 元数据的存储方式
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
3. 元数据的作用
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
9
星型模型和雪花模型
在多维分析的商业智能解决方案中 , 根据事实表和维度表的关系 , 又可将常见的模型分为星型模型和雪花型模型 。 在设计逻辑型数据的模型的时候 , 就应考虑数据是按照星型模型还是雪花型模型进行组织 。


推荐阅读