『发家致富全靠它』企业数据仓库:概念,体系结构和组件( 三 )


企业数据仓库架构
尽管有许多架构方法以一种或另一种方式扩展仓库功能 , 但我们将重点介绍最基本的方法 。 无需过多讨论技术细节 , 整个数据管道可以分为三层:
原始数据层(数据源)
仓库及其生态系统
用户界面(分析工具)
与数据提取 , 转换和加载到仓库有关的工具是称为ETL的另一类工具 。 同样 , 在ETL的保护下 , 数据集成工具在将数据放入仓库之前会对数据进行操作 。 这些工具在原始数据层和仓库之间运行 。
将数据加载到仓库后 , 也可以对其进行转换 。 因此 , 仓库将需要某些功能来进行清洁/标准化/尺寸确定 。 这些因素和其他因素将决定体系结构的复杂性 。 我们将从不断增长的组织需求的角度看待EDW体系结构 。
一层架构
鉴于数据集成配置合理 , 我们可以选择数据仓库 。 在大多数情况下 , 数据仓库是一个关系数据库 , 其中包含允许多维数据的模块 , 或者可以分离某些特定于域的信息以便于访问的数据库 。 在最原始的形式中 , 仓储只能具有一层架构 。
『发家致富全靠它』企业数据仓库:概念,体系结构和组件
本文插图
报告层直接与EDW的整个数据库连接
EDW的一层架构意味着您拥有一个与分析接口直接连接的数据库 , 最终用户可以在其中进行查询 。 在EDW和分析工具之间建立直接连接带来了一些挑战:
传统上 , 您可以将存储视为从100GB数据开始的仓库 。 直接使用它可能导致混乱的查询结果以及低处理速度 。
直接从DW查询数据可能需要精确的输入 , 以便系统能够过滤掉不需要的数据 。 这使得使用演示工具变得有些困难 。
存在有限的灵活性/分析能力 。
此外 , 一层架构为报告的复杂性设置了一些限制 。 由于这种方法的缓慢性和不可预测性 , 因此很少用于大型数据平台 。 要执行高级数据查询 , 可以使用低级实例扩展仓库 , 从而使对数据的访问更加容易 。
『发家致富全靠它』企业数据仓库:概念,体系结构和组件
本文插图
两层体系结构(数据集市层)
在两层体系结构中 , 在用户界面和EDW之间添加了一个数据集市级别 。 数据集市是包含特定于域的信息的低级存储库 。 简而言之 , 这是另一个较小的数据库 , 它为EDW扩展了专用于您的销售/运营部门 , 市场营销等方面的信息 。
在两层体系结构中 , 数据集市扩展了EDW , 以提供特定于域的数据
创建数据集市层将需要额外的资源来建立硬件并将这些数据库与其余数据平台集成 。 但是 , 这种方法解决了查询问题:每个部门将更轻松地访问所需数据 , 因为给定的集市将仅包含特定于域的信息 。 此外 , 数据集市将限制最终用户对数据的访问 , 从而使EDW更加安全 。
三层架构(在线分析处理)
在数据集市层之上 , 企业还使用在线分析处理(OLAP)多维数据集 。 OLAP多维数据集是一种特定类型的数据库 , 表示来自多个维度的数据 。 关系数据库仅表示二维数据(例如Excel或Google Sheets) , 而OLAP允许您编译多个维度的数据并在多个维度之间移动 。
『发家致富全靠它』企业数据仓库:概念,体系结构和组件
本文插图
OLAP多维数据集层可以从分布式集市或直接从EDW中获取信息
用语言很难解释 , 因此让我们看一下这个方便的示例 , 说明多维数据集的外观 。
『发家致富全靠它』企业数据仓库:概念,体系结构和组件
本文插图
OLAP多维数据集展示多维销售数据
资料来源:oreilly.com
因此 , 如您所见 , 多维数据集将维度添加到数据中 。 您可能会认为它是多个相互组合的Excel表 。 多维数据集的前面是通常的二维表 , 其中垂直指定区域(非洲 , 亚洲等) , 而水平销售数字和日期 。 当我们查看多维数据集的上面时 , 魔术就开始了 , 在这里 , 销售按路线进行细分 , 而底部则指定时间段 。 这就是所谓的多维数据 。


推荐阅读