数据|关于数据仓库的架构及3大类组件工具选型( 二 )
文章图片
文章图片
数据仓库的4层核心组件:底层源数据库(数据存储方案)、ETL、前端应用、还有OLAP服务 。
数据仓库数据库
底层的数据仓库服务器通常是一个关系数据库系统(各种表关联的sql统计会更方便一些 , 非关系型数据库目前在这方面还是有所区别) 。常用的方案有Oracle、db2、sqlserve 还有essbase、greenplum、teredata等数据仓库专业解决方案 。
1、采用传统关系型数据库 , 或经过功能扩展的MPP数据库
① 传统的关系型数据库有:oracle、mysql、DB2
② 大规模并行处理数据库:Vertica、Teradata(商业)、Greenplum (开源)
Teradata老江湖了 , 银行业使用较多 , 但成本也是真的贵 , 目前我们做项目较多的是用Greenplum , 算是业界最快和最高性价比的高端数据仓库解决方案 , Greenplum是基于PostgreSQL的 , 于2015年开源 。我知道的国内四大行有3家在用 , 5大物流公司有4家在用 , 不少公司在从Teradata 迁移到 GP 。
2、大数据平台架构:Hadoop+Hive
这套方案有多通用不用多说了 , 通常是这样的组合:TB级数据用PG , 百TB级数据用GP , PB级i上数据用Hadoop 。
下面整理了一张传统数据仓库架构、GP还有Hadoop大数据平台的对比图 。
文章图片
文章图片
采集、收集、清洗和转换工具(ETL)
数据来源、转换和迁移工具用于执行将数据转换为数据仓库中的统一格式所需的所有转换、摘要和所有更改 , 它们也称为提取、转换和加载工具 。其功能包括:
1、抽取
全量抽取:适用于数据量小且不容易判断其数据发生改变的诸如关系表 , 维度表 , 配置表等
增量抽取:适用于数据量大 , 为了节省抽取时间而采用的抽取策略
2、清洗
空值处理:将空值替换为特定值或直接过滤掉
验证数据正确性:把不符合业务含义的数据做统一处理
规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式
数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值
数据标准统一:比如在源数据中表示男女的方式有很多种 , 在抽取的时候直接根据模型中定义的值做转化 。
3、转化和加载
转换:用ODS中的增量或者全量数据来刷新DW中的表
加载:每insert数据到一张表都可以称为数据加载
关于ETL工具的选型 , 这里罗列了一张对比表 , 基本囊括常用的ETL工具 。
文章图片
文章图片
前端应用工具
数据仓库平台的搭建 , 最终是为了梳理出有用数据、提供有价值信息 , 帮助业务做出正确决策 。
前端应用工具主要就是和数据仓库不同环节的数据交互 , 这些应用一般可以分为4类:数据查询和报表工具BI即席分析工具数据挖掘工具各种基于数据仓库或数据集市的应用开发工具
其中数据分析工具主要针对OLAP服务器 , 报表工具、数据挖掘工具主要针对数据仓库 。
1、数据查询和报表工具
通常用来生成一些固定类报表 , 自动化报表 , 支持打印和计算等大批量批处理作业 。
流行的报表工具 , 在旧数据仓库时代主要是IBM的BO、Oracle的BIEE、还有微软和cognos , 整体打包在数据仓库解决方案里 , 报表作为一个组件存在 。但是随着传统型数仓 , 架构重成本贵 , 很多公司在项目上会自己考虑设计架构 , 而不是直接强套昂贵的解决方案 , 包括很多开源组件/平台的使用 。
推荐阅读
- 数据|首届数字共青发展高峰论坛顺利召开,海云数据智能智造研发基地同期揭牌
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 直播|“双11”刷单刷量频现 直播新规直指数据“注水”
- 直播|直播带货将迎最强监管 国家网信办征言:严禁点赞、交易等数据流量造假
- 超能网|Ryzen 7 5700U亮身Geekbench数据库,依然是Zen 2架构
- 京东健康|京东健康赴港上市获批 全国已布局241个仓库
- 钛媒体APP|汪涵直播带货“翻车”?网信办出新规:对数据造假严厉打击
- 华为|堆料级线材,华为5A线取得京东双十一数据线销量冠军
- 互联网|周宏仁:工业互联网核心是先进的数据分析和处理
- |临床数据缺乏标准化、科研转化难?专家提议造一个“医疗科研领域的淘宝”
