中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!( 三 )
- 数据仓库层:DW(Data Warehouse):为数据仓库层 , DW层的数据应该是一致的、准确的、干净的数据 , 即对源系统数据进行了清洗(去除了杂质)后的数据 。 这一层的数据一般是遵循数据库第三范式的 , 其数据粒度通常和ODS的粒度相同 。 在DW层会保存BI系统中所有的历史数据 , 例如保存10年的数据
- 数据集市层:DM(Data Mart):为数据集市层 , 这层数据是面向主题来组织数据的 , 通常是星形或雪花结构的数据 。 从数据粒度来说 , 这层的数据是轻度汇总级的数据 , 已经不存在明细数据了 。 从数据的时间跨度来说 , 通常是DW层的一部分 , 主要的目的是为了满足用户分析的需求 , 而从分析的角度来说 , 用户通常只需要分析近几年(如近三年的数据)的即可 。 从数据的广度来说 , 仍然覆盖了所有业务数据 。
- 应用层:Application层:这层数据是完全为了满足具体的分析需求而构建的数据 , 也是星形或雪花结构的数据 。 从数据粒度来说是高度汇总的数据 。 从数据的广度来说 , 则并不一定会覆盖所有业务数据 , 而是DM层数据的一个真子集 , 从某种意义上来说是DM层数据的一个重复 。 从极端情况来说 , 可以为每一张报表在APP层构建一个模型来支持 , 达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准 , 实际实施时需要根据实际情况确定数据仓库的分层 , 不同类型的数据也可能采取不同的分层方法 。
- 用空间换时间 , 通过大量的预处理来提升应用系统的用户体验(效率) , 因此数据仓库会存在大量冗余的数据
- 解偶 , 如果不分层的话 , 如果源业务系统的业务规则发生变化将会影响整个数据清洗过程 , 工作量巨大
- 通过数据分层管理可以简化数据清洗的过程 , 因为把原来一步的工作分到了多个步骤去完成 , 相当于把一个复杂的工作拆成了多个简单的工作 , 把一个大的黑盒变成了一个白盒 , 每一层的处理逻辑都相对简单和容易理解 , 这样我们比较容易保证每一个步骤的正确性 , 当数据发生错误的时候 , 往往我们只需要局部调整某个步骤即可 。
元数据介绍当需要了解某地企业及其提供的服务时 , 电话黄页的重要性就体现出来了 。 元数据(Metadata)类似于这样的电话黄页 。
1. 元数据的定义
本文插图
本文插图
本文插图
2. 元数据的存储方式
本文插图
3. 元数据的作用
本文插图
9
星型模型和雪花模型
在多维分析的商业智能解决方案中 , 根据事实表和维度表的关系 , 又可将常见的模型分为星型模型和雪花型模型 。 在设计逻辑型数据的模型的时候 , 就应考虑数据是按照星型模型还是雪花型模型进行组织 。
推荐阅读
- 中国新闻网|他主动投案,今年7月刚当上副省长……
- 武契奇|塞尔威亚总统武契奇:我在白宫捍卫了和中国的关系
- 中国江苏网|疫情诉求主入口,“12345”经历了什么?
- 健康中国微信公众号|颠覆!午睡千万别超过这个时间!当心引发致命疾病…
- 赵立坚|赵立坚:美国以莫须有借口抓捕中国企业高管 连一个弱女子都不放过
- 国际事今日看|美国一杯羹都分不到,只信任中国!埃及送来3000亿大项目
- 中国新闻网|港中大研究表明部分新冠患者康复后粪便内病毒仍具传染性
- 今天国际超大事儿|却向中国讨说法,希望中国能网开一面,美国60家企业破产
- 中国青年报|专升本再迎大规模扩招 高职生热衷升本该怎么看?
- 解放网|破坏中美人文交流注定成历史罪人,蓬佩奥威胁将进一步限制中国留学生赴美
