中国统计网数据仓库基础知识,「5分钟+8角度」帮你搞定!( 二 )
4. 数据仓库的数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的 , 也就是说 , 数据仓库的用户进行分析处理时是不进行数据更新操作的 。 但并不是说 , 在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中 , 所有的数据仓库数据都是永远不变的 。
数据仓库的数据是随时间的变化而不断变化的 , 这是数据仓库数据的第四个特征 。 这一特征表现在以下3方面:
- 数据仓库随时间变化不断增加新的数据内容 。 数据仓库系统必须不断捕捉OLTP数据库中变化的数据 , 追加到数据仓库中去 , 也就是要不断地生成OLTP数据库的快照 , 经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快照 , 如果捕捉到新的变化数据 , 则只生成一个新的数据库快照增加进去 , 而不会对原有的数据库快照进行修改 。 形象来说就是对数据进每日全量数据的收集
- 数据仓库随时间变化不断删去旧的数据内容 。 数据仓库的数据也有存储期限 , 一旦超过了这一期限 , 过期数据就要被删除 。 只是数据仓库内的数据时限要远远长于操作型环境中的数据时限 。 在操作型环境中一般只保存有60到90天的数据 , 而在数据仓库中则需要保存较长时限的数据(如5~10年) , 以适应DSS(Decision Support System)进行趋势分析的要求
- 数据仓库中包含有大量的综合数据 , 这些综合数据中很多跟时间有关 , 如数据经常按照时间段进行综合 , 或隔一定的时间片进行抽样等等 。 这些数据要随着时间的变化不断地进行重新综合 。 因此 , 数据仓库的数据特征都包含时间项 , 以标明数据的历史时期
数据仓库发展历程
本文插图
5
数据库与数据仓库的区别
本文插图
6
OLTP跟OLAP
数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别 。
- 操作型处理:叫联机事务处理OLTP(On-Line Transaction Processing) , 也可以称面向交易的处理系统 , 它是针对具体业务在数据库联机的日常操作 , 通常对少数记录进行查询、修改 。 用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题 。 传统的数据库系统作为数据管理的主要手段 , 主要用于操作型处理
- 分析型处理:叫联机分析处理OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据进行分析 , 支持管理决策 , ETL
本文插图
7
数据仓库架构分层(重点)
1. 数据仓库架构
数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层) 。
本文插图
各个系统的元数据通过ETL同步到操作性数据仓库ODS中 , 对ODS数据进行面向主题域建模形成DW(数据仓库) , DM是针对某一个业务领域建立模型 , 具体用户(决策层)查看DM生成的报表 。
- 临时存储数据运营层:ODS(Operational Data Store):ODS层是这样一种数据存储系统 , 它将来自不同数据源的数据(各种操作型数据库、外部数据源等)通过ETL(Extract-Transform-Load)过程汇聚整合成面向主题的、集成的、企业全局的、一致的数据集合(主要是最新的或者最近的细节数据以及可能需要的汇总数据) 。 从数据粒度上来说ODS层的数据粒度是最细的 。 ODS层的表通常包括两类 , 一个用于存储当前需要加载的数据 , 一个用于存储处理完后的历史数据 。 历史数据一般保存3-6个月后需要清除 , 以节省空间 。 但不同的项目要区别对待 , 如果源系统的数据量不大 , 可以保留更长的时间 , 甚至全量保存
推荐阅读
- 中国新闻网|他主动投案,今年7月刚当上副省长……
- 武契奇|塞尔威亚总统武契奇:我在白宫捍卫了和中国的关系
- 中国江苏网|疫情诉求主入口,“12345”经历了什么?
- 健康中国微信公众号|颠覆!午睡千万别超过这个时间!当心引发致命疾病…
- 赵立坚|赵立坚:美国以莫须有借口抓捕中国企业高管 连一个弱女子都不放过
- 国际事今日看|美国一杯羹都分不到,只信任中国!埃及送来3000亿大项目
- 中国新闻网|港中大研究表明部分新冠患者康复后粪便内病毒仍具传染性
- 今天国际超大事儿|却向中国讨说法,希望中国能网开一面,美国60家企业破产
- 中国青年报|专升本再迎大规模扩招 高职生热衷升本该怎么看?
- 解放网|破坏中美人文交流注定成历史罪人,蓬佩奥威胁将进一步限制中国留学生赴美
