科技小数据|一文了解数据仓库( 八 )



科技小数据|一文了解数据仓库
本文插图

MOLAP
HOLAP(Hybrid Online Analytical Processing)
这种架构综合参考MOLAP和ROLAP而采用一种混合解决方案 , 将某些需要特别提速的查询放到MOLAP引擎 , 其他查询则调用ROLAP引擎 。 上述MOLAP和ROLAP的结合 。 它提供了更大的灵活度 , MOLAP提供提供了更加快速的响应速度 。 但是带来的问题是 , 数据装载的效率非常低 , 因为其实就是将多维的数据预先填好 , 但是随着数据量过大维度成本越高 , 容易引起“数据爆炸” 。

科技小数据|一文了解数据仓库
本文插图

HOLAP
OLAP数据立方体(Data Cube)
OLAP(online analytical processing)是一种软件技术 , 它使分析人员能够迅速、一致、交互地从各个方面观察信息 , 以达到深入理解数据的目的 。 从各方面观察信息 , 也就是从不同的维度分析数据 , 因此OLAP也称为多维分析 。 很多年前 , 当我们要手工从一堆数据中提取信息时 , 我们会分析一堆数据报告 。 通常这些数据报告采用二维表示 , 是行与列组成的二维表格 。 但在真实世界里我们分析数据的角度很可能有多个 , 数据立方体可以理解为就是维度扩展后的二维表格 。 下图展示了一个三维数据立方体:

科技小数据|一文了解数据仓库
本文插图

OLAP
更多时候数据立方体是N维的 。 它的实现有两种方式 。 其中星形模式就是其中一种 , 该模式其实是一种连接关系表与数据立方体的桥梁 。 但对于大多数纯OLAP使用者来讲 , 数据分析的对象就是这个逻辑概念上的数据立方体 , 其具体实现不用深究 。 对于这些OLAP工具的使用者来讲 , 基本用法是首先配置好维表、事实表 , 然后在每次查询的时候告诉OLAP需要展示的维度和事实字段和操作类型即可 。
最常见的五大操作:切片 , 切块 , 旋转 , 上卷 , 下钻
切片和切块(Slice and Dice)
在数据立方体的某一维度上选定一个维成员的操作叫切片 , 而对两个或多个维执行选择则叫做切块 。 下图逻辑上展示了切片和切块操作:

科技小数据|一文了解数据仓库
本文插图

切片和切块
旋转(Pivot)
旋转就是指改变报表或页面的展示方向 。 对于使用者来说 , 就是个视图操作 , 而从SQL模拟语句的角度来说 , 就是改变SELECT后面字段的顺序而已 。 下图逻辑上展示了旋转操作:

科技小数据|一文了解数据仓库
本文插图

旋转(Pivot)
上卷和下钻(Rol-up and Drill-down)
上卷可以理解为"无视"某些维度;下钻则是指将某些维度进行细分 。 下图逻辑上展示了上卷和下钻操作:

科技小数据|一文了解数据仓库
本文插图

上卷和下钻
Cube 和 Cuboid

科技小数据|一文了解数据仓库
本文插图

Cube(或 Data Cube) , 即数据立方体 , 是一种常用于数据分析与索引的技术;它可以对原始数据建立多维度索引 。 通过 Cube 对数据进行分析 , 可以大大加快数据的查询效率 。
Cuboid 特指在某一种维度组合下所计算的数据 。 给定一个数据模型 , 我们可以对其上的所有维度进行组合 。 对于 N 个维度来说 , 组合的所有可能性共有 2 的 N 次方种 。 对于每一种维度的组合 , 将度量做 聚合运算 , 然后将运算的结果保存为一个物化视图 , 称为 Cuboid 。


推荐阅读