科技小数据|一文了解数据仓库( 二 )


数据仓库内的数据时限一般在5-10年以上 , 甚至永不删除 , 这些数据的键码都包含时间项 , 标明数据的历史时期 , 方便做时间趋势分析 。
数据仓库 , 并不是数据最终目的地 , 而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计等等
通过对数据仓库中数据的分析 , 可以帮助企业 , 改进业务流程、控制、成本、提高产品质量等
主要解决问题:数据报表 , 数据沉淀 , 数据计算Join过多 , 数据查询过慢等问题 。
防止烟囱式开发 , 减少重复开发 , 开发通用中间层数据 , 减少重复计算;将复杂问题简单化 , 将复杂任务的多个步骤分解到各个层次中 , 每一层只处理较少的步骤 , 使单个任务更容易理解;可进行数据血缘追踪 , 便于快速定位问题;整个数据层次清晰 , 每个层次的数据都有职责定位 , 便于使用和理解 。
主要价值体现:企业数据模型 , 这些模型随着前端业务系统的发展变化 , 不断变革 , 不断追加 , 不断丰富和完善 , 即使系统不再了 , 也可以在短期内快速重建起来 , 这也是大数据产品能够快速迭代起来的一个重要原因.
总结:数据仓库 , 即为企业数据的模型沉淀 , 为了能更快的发展大数据应用 , 提供可靠的模型来快速迭代 。 本文也主要为了讲解数据仓库
数据仓库相关图集

科技小数据|一文了解数据仓库
本文插图

数仓硬件架构图

科技小数据|一文了解数据仓库
本文插图

数仓功能架构

科技小数据|一文了解数据仓库
本文插图

数仓流程架构图1

科技小数据|一文了解数据仓库
本文插图

数仓流程架构图2

科技小数据|一文了解数据仓库
本文插图

实时数仓流程架构图
数据仓库的演进

科技小数据|一文了解数据仓库
本文插图

演进
数据仓库主要用途
大家应该已经意识到这个问题:既然分析型数据库中的操作都是查询 , 因此也就不需要严格满足完整性/参照性约束以及范式设计要求 , 而这些却正是分析型数据库精华所在 。 这样的情况下再将它归为数据库会很容易引起大家混淆 , 毕竟在绝大多数人心里数据库是可以关系型数据库画上等号的 。
那么为什么不干脆叫"面向分析的存储系统"呢?这就是关于数据仓库最贴切的定义了 。 事实上数据仓库不应让传统关系数据库来实现 , 因为关系数据库最少也要求满足第1范式 , 而数据仓库里的关系表可以不满足第1范式 。 也就是说 , 同样的记录在一个关系表里可以出现N次 。 但由于大多数数据仓库内的表的统计分析还是用SQL , 因此很多人把它和关系数据库搞混了 。
支持数据提取
数据提取可以支撑来自企业各业务部门的数据需求 。
由之前的不同业务部门给不同业务系统提需求转变为不同业务系统统一给数据仓库提需求 , 避免烟囱式开发
科技小数据|一文了解数据仓库
本文插图

数据提取
支持报表系统
基于企业的数据仓库 , 向上支撑企业的各部门的统计报表需求 , 辅助支撑企业日常运营决策 。

科技小数据|一文了解数据仓库
本文插图

报表系统


推荐阅读