科技小数据一文了解数据仓库( 三 )
支持数据分析
从许多来自不同的企业业务系统的数据中提取出有用的数据并进行清理 , 以保证数据的正确性 , 然后经过抽取、转换和装载,即ETL过程 , 合并到一个企业级的数据仓库里 , 从而得到企业数据的一个全局视图;
在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识);
最后将知识呈现给管理者 , 为管理者的决策过程提供支持。
支持数据挖掘
数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD) , 就是将高级智能计算技术应用于大量数据中 , 让计算机在有人或无人指导的情况下从海量数据中发现潜在的 , 有用的模式(也叫知识) 。
Jiawei Han在《数据挖掘概念与技术》一书中对数据挖掘的定义:数据挖掘是从大量数据中挖掘有趣模式和知识的过程 , 数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据 。
本文插图
image.png
支持数据应用
物联网基于位置数据的旅游客流分析及人群画像通信基于位置数据的人流监控和预警银行基于用户交易数据的金融画像应用电商根据用户浏览和购买行为的用户标签体系及推荐系统征信机构根据用户信用记录的信用评估出行基于位置数据的车流量分析 , 调度预测
数据集市
数据集市可以理解为是一种"小型数据仓库" , 它只包含单个主题 , 且关注范围也非全局.数据集市可以分为两种 , 一种是独立数据集市(independent data mart) , 这类数据集市有自己的源数据库和ETL架构;另一种是非独立数据集市(dependent data mart) , 这种数据集市没有自己的源系统 , 它的数据来自数据仓库 。 当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时 , 非独立数据集市就可以简单为用户提供一个数据仓库的"子集" 。
数据集市:部门级别的数据仓库 , 能为某个局部范围内的管理人员提供服务 。
数据仓库:企业级别的数据仓库 , 能为企业各个部门的运行提供决策支持 。
建模的基本概念
本文插图
关系建模
上图为web应用中的一个建模片段 , 遵循三范式建模 , 可以看出 , 较为松散、零碎 ,物理表数量多 , 而数据冗余程度低 。 由于数据分布于众多的表中 , 这些数据可以更为灵活地 被应用 , 功能性较强 。 关系模型主要应用与 OLTP 系统中 , 为了保证数据的一致性以及避免 冗余 , 所以大部分业务系统的表都是遵循第三范式的 。
维度建模
维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法
本文插图
维度建模
上图为维度模型建模片段 , 主要应用于 OLAP 系统中 , 通常以某一个事实表为中心进行表的 组织 , 主要面向业务 , 特征是可能存在数据的冗余 , 但是能方便的得到数据 。
关系模型虽然冗余少 , 但是在大规模数据 , 跨表分析统计查询过程中 , 会造成多表关联 , 这会大大降低执行效率 。 所以通常我们采用维度模型建模 , 把相关各种表整理成两种:事实表和维度表两种
维度建模的三种模式
本文插图
星形模式
星形模式(Star Schema)是最常用的维度建模方式可以看出 , 星形模式的维度建模由一个事实表和一组维表成 , 且具有以下特点:维表只和事实表关联 , 维表之间没有关联;每个维表的主码为单列 , 且该主码放置在事实表中 , 作为两边连接的逻辑外键;以事实表为核心 , 维表围绕核心呈星形分布.
推荐阅读
- 科技一哥|荣耀30青春版图集赏析:触觉与视觉的完美享受
- 科技犬君|vs 索尼A9G 谁强?,上半年用户喜爱手机盘点;小米电视大师65英寸OLED
- 精选泛科技|结果如何?,一加8续航遭质疑:上半年最全机型横评出炉
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 疫情|美国疫情速报:确诊数已逼近284万;特朗普发话:99%新冠病例完全无害;美专家:实际感染数或是现有数据10~24倍
