『发家致富全靠它』企业数据仓库:概念,体系结构和组件( 四 )
OLAP的业务价值在于 , 它允许用户将数据切成小块并切成小块以编制详细的报告 。 只要优化了多维数据集以使其能够与仓库一起使用 , 它们就可以直接与EDW一起使用以提供对所有公司数据或特定每个数据集市的访问 。 在实施方面 , 几乎所有仓库提供商都提供OLAP即服务 。 例如 , 请查看有关其OLAP产品的Microsoft文档 。
在这一点上 , 我们讨论了适用于组织需求的EDW的高级设计 。 现在 , 我们将深入研究仓库可能包含的技术组件 。
数据仓库vs数据湖vs数据集市
说到数据存储体系结构 , 我们不得不提到使用数据集市或数据湖而不是仓库的选择 。 经常混淆 , 我们将详细说明这些定义 。
【『发家致富全靠它』企业数据仓库:概念,体系结构和组件】
本文插图
三种数据存储形式的比较
数据仓库用于存储结构化数据 , 以便查询工具和最终用户可以获得全面的结果 。 通常用于BI的仓库的大小通常在100GB和无限之间 。
但是 , 数据湖通常用于存储原始数据或混合数据 。 这些通常用于机器学习 , 大数据或数据挖掘目的 。 在最近几年中 , 数据湖用于BI:将原始数据加载到湖中并进行转换 , 这是ETL过程的替代方法 。 尽管这种方法有其优点和缺点 , 但数据湖对于获取结构化数据而言可能过于混乱 。
然后我们有数据集市 , 也可以用作DW的替代品 。 这种模型(例如Kimball的模型)假定使用多个数据集市按域分发信息并相互连接 。 但是 , 由于数据集市很小(通常小于100GB) , 因此企业几乎无法使用数据集市 。 数据集市通常用于将大型DW细分为可操作性更高的DW 。
企业数据仓库组件
有很多工具可以用来建立仓库平台 。 我们已经提到了其中大多数 , 包括仓库本身 。 因此 , 让我们大致了解每个组件的用途及其功能 。
资料来源 。 很简单 , 存储原始数据的数据库 。
提取 , 转换 , 加载(ETL)或提取 , 加载 , 转换(ELT)层 。 这些工具执行与源数据的实际连接 , 提取和加载到要转换的位置的工具 。 转换统一数据格式 。 ETL和ELT方法的区别在于 , 在ETL中 , 转换是在暂存区中的EDW之前完成的 。 ELT是一种更现代的方法 , 可以处理仓库中的所有转换 。
暂存区 。 对于ETL , 暂存区是在EDW之前加载位置数据 。 在这里 , 它将被清理并转换为给定的数据模型 。 暂存区域还可以包括用于数据质量管理的工具 。
DW数据库 。 数据最终被加载到存储空间中 。 在ELT中 , 这里可能仍需要进行一些转换 。 但是 , 在此阶段 , 将应用所有常规更改 , 因此数据将加载到其最终模型中 。 如前所述 , 数据仓库通常是关系数据库 。 DW还将包括数据库管理系统和元数据的附加存储 。
元数据模块 。 简而言之 , 元数据是关于数据的数据 。 这些说明为用户/管理员提供了与该信息相关的主题/领域的提示 。 该数据可以是技术元数据(例如初始来源) , 也可以是业务元数据(例如销售区域) 。 所有元数据都存储在EDW的单独模块中 , 并由元数据管理器进行管理 。
报告层 。 这些工具使最终用户可以访问数据 。 也称为BI界面 , 该层将用作仪表板以可视化数据 , 形成报告并提取单独的信息 。
小结
了解传递数据的工具链可以帮助您确定什么才真正适合您的数据平台要求 。 计划建立一个仓库可能要花费数年的计划和测试 , 因为它以最基本的形式存在 。
作为企业主 , 您可能会对所使用的选项和技术的数量感到困惑 , 因此与仓储 , ETL和BI领域的专家进行磋商至关重要 。 尽管专家可以在技术方面为您提供帮助 , 但可以定义业务目标 , 但请与将在工作中使用实际数据的人进行交谈 。
推荐阅读
- 【为4899家】青海为4899家企业发放稳岗返还资金1.2亿元
- 西安高新区“云路演”举行 清科沙丘创业中心、项目工场APP助力多领域企业融资
- #家族企业杂志#2020年一季度大类资产收益表现短评
- 大众网■奖!城阳区出台鼓励工业企业跨越式发展奖励办法
- 戈峻完成一周年大考 助力智慧企业大崛起
- 戮默科技■助力企业数字化升级,戮默科技深挖软件开发核心
- 【震旦】震旦AD400MNF激光一体机,复工企业经济高效之选
- [长江云]平安行,全靠它,清明高速出行攻略出炉!避风险
- CNBC:京东智联云打造欧美企业在华首选技术服务平台
- 「企业」“东莞网红直播带货基地”上线,助力企业加快复苏
