中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!( 二 )


4. 数据仓库的数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的 , 也就是说 , 数据仓库的用户进行分析处理时是不进行数据更新操作的 。 但并不是说 , 在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中 , 所有的数据仓库数据都是永远不变的 。
数据仓库的数据是随时间的变化而不断变化的 , 这是数据仓库数据的第四个特征 。 这一特征表现在以下3方面:

  • 数据仓库随时间变化不断增加新的数据内容 。 数据仓库系统必须不断捕捉OLTP数据库中变化的数据 , 追加到数据仓库中去 , 也就是要不断地生成OLTP数据库的快照 , 经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快照 , 如果捕捉到新的变化数据 , 则只生成一个新的数据库快照增加进去 , 而不会对原有的数据库快照进行修改 。 形象来说就是对数据进每日全量数据的收集
  • 数据仓库随时间变化不断删去旧的数据内容 。 数据仓库的数据也有存储期限 , 一旦超过了这一期限 , 过期数据就要被删除 。 只是数据仓库内的数据时限要远远长于操作型环境中的数据时限 。 在操作型环境中一般只保存有60到90天的数据 , 而在数据仓库中则需要保存较长时限的数据(如5~10年) , 以适应DSS(Decision Support System)进行趋势分析的要求
  • 数据仓库中包含有大量的综合数据 , 这些综合数据中很多跟时间有关 , 如数据经常按照时间段进行综合 , 或隔一定的时间片进行抽样等等 。 这些数据要随着时间的变化不断地进行重新综合 。 因此 , 数据仓库的数据特征都包含时间项 , 以标明数据的历史时期
4
数据仓库发展历程
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
5
数据库与数据仓库的区别
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
6
OLTP跟OLAP
数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别 。
  • 操作型处理:叫联机事务处理OLTP(On-Line Transaction Processing) , 也可以称面向交易的处理系统 , 它是针对具体业务在数据库联机的日常操作 , 通常对少数记录进行查询、修改 。 用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题 。 传统的数据库系统作为数据管理的主要手段 , 主要用于操作型处理
  • 分析型处理:叫联机分析处理OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据进行分析 , 支持管理决策 , ETL

中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
7
数据仓库架构分层(重点)
1. 数据仓库架构
数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层) 。
中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!
本文插图
各个系统的元数据通过ETL同步到操作性数据仓库ODS中 , 对ODS数据进行面向主题域建模形成DW(数据仓库) , DM是针对某一个业务领域建立模型 , 具体用户(决策层)查看DM生成的报表 。