『发家致富全靠它』企业数据仓库:概念,体系结构和组件( 二 )


非易失性的 。 一旦放入仓库 , 就永远不会从中删除数据 。 由于源更改 , 可以对数据进行操作 , 修改或更新 , 但绝不打算删除数据 , 至少最终用户要删除它们 。 当我们谈论历史数据时 , 出于分析目的删除会适得其反 。 然而 , 为了摆脱不相关的数据 , 可能会在几年内进行一次总体修订 。
考虑基本原理 , 我们将研究DW的实现类型 。
数据仓库类型
考虑到EDW的功能 , 对于如何在技术上进行设计总是有讨论的余地 。 在数据存储和处理的情况下 , 它们针对不同种类的企业而特定且不同 。 当然 , 根据数据量 , 分析复杂性 , 安全性问题和预算 , 总会有关于如何设置系统的选项 。
经典数据仓库
具有专用硬件和软件的统一存储被认为是EDW的经典变体 。 使用物理存储 , 您不必在多个数据库之间设置数据集成工具 。 相反 , EDW可以通过API与数据源连接 , 以不断地获取信息并在此过程中对其进行转换 。 因此 , 所有工作都在暂存区域(在将数据加载到DW之前转换数据的地方)或仓库本身中完成 。
传统的数据仓库被认为比虚拟的仓库(我们将在下面讨论)优越 , 因为它没有附加的抽象层 。 它简化了数据工程师的工作 , 并使在预处理端管理数据流以及实际报告变得更加容易 。 经典仓库的缺点取决于实际的实现 , 但是对于大多数企业而言 , 这些缺点是:
昂贵的技术基础设施 , 包括硬件和软件;
聘请数据工程师和DevOps专家团队来建立和维护整个数据平台 。
何时使用:适用于各种规模的想要处理其数据并使用它们的组织 。 经典仓库可让您变身为数据平台的不同体系结构样式 , 并有意按比例放大和缩小 。
虚拟数据仓库
虚拟数据仓库用来作为一种替代 , 以经典的仓库类型EDW的 。 本质上 , 这些是虚拟连接的多个数据库 , 因此可以将它们作为一个系统进行查询 。
『发家致富全靠它』企业数据仓库:概念,体系结构和组件
本文插图
虚拟DW抽象与源数据库之间的关系的方案
这种方法可以使组织保持简单:数据可以保留在源中 , 但仍可以借助分析工具进行提取 。 如果您不想弄乱所有底层基础结构 , 或者您拥有的数据易于管理 , 则可以使用虚拟仓库 。 但是 , 这种方法有很多缺点:
多个数据库将需要不断的软件和硬件维护以及成本 。
存储在虚拟DW中的数据仍然需要转换软件 , 以使最终用户和报告工具可以消化 。
复杂的数据查询可能会花费太多时间 , 因为所需的数据可能会放置在两个单独的数据库中 。
何时使用:适合具有标准化格式原始数据且无需复杂分析的企业 。 它也适合那些不系统地使用BI或希望从中开始使用BI的组织 。
云数据仓库
十年来 , 云/无云技术已成为建立组织级技术的标准 。 您会在市场上找到无数的提供仓储即服务的提供商 。 仅举几例:
Amazon Redshift
IBM Db2
Google BigQuery
Snowflake
Microsoft SQL数据仓库
提到的所有提供商都将完全托管的 , 可扩展的仓库作为其BI工具的一部分提供 , 或者像Snowflake一样将EDW作为独立服务来关注 。 在这种情况下 , 云仓库架构具有与任何其他云服务相同的优势 。 它的基础架构已为您维护 , 这意味着您无需设置自己的服务器 , 数据库和工具即可对其进行管理 。 此类服务的价格取决于所需的内存量以及查询的计算能力 。
就云仓库平台而言 , 您可能要担心的唯一方面是数据安全性 。 您的业??务数据是一件敏感的事情 。 因此 , 您想检查所选的供应商是否可以信任以避免违反协议 。 这并不一定意味着本地仓库会更安全 , 但是在这种情况下 , 您的数据安全就在您手中 。
何时使用:云平台是任何规模的组织的绝佳选择 。 如果您需要为您进行所有设置 , 包括托管数据集成 , DW维护和BI支持 。


推荐阅读