「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构


Hadoop上企业数据仓库优化的参考架构
【「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构】
「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构
本文插图

可扩展的廉价存储和并行处理是Hadoop的基础 。 这些功能使Hadoop在补充和优化传统企业数据仓库(EDW)工作负载中发挥关键作用 。 此外 , 最新技术 , 例如带有ACID合并的Hive LLAP(内存中 , 长时间运行的执行线程)和AtScale专有软件(HDFS中具有聚合缓存的虚拟OLAP多维数据集)现在首次实现了快速的BI直接针对TB和PB使用著名的BI工具(例如Tableau)在Hadoop上提供大尺寸数据 。
本文介绍了EDW优化的三个用例的参考体系结构:
主动归档:在Hadoop上归档陈旧的EDW数据 , 以实现便宜的存储以及探索性和BI分析 。
EDW卸载:将分段数据和ETL转换卸载到Hadoop , 并将最终数据结构导出回现有EDW系统(以实现便宜的存储和Hadoop上更快的ETL , 以及对现有EDW上更快的BI查询) 。
Hadoop上的BI:针对Hadoop上的 TB和PB数据的商业智能工具 , 并有可能淘汰现有的EDW 。 问题
与HDFS相比 , 诸如Teradata和Neteeza之类的EDW系统每GB存储数据的成本高出50倍以上– 100倍以上
EDW系统中的大多数数据(通常高达70%)已分阶段转换为BI查询所用的最终表 。 BI用户不会直接查询此暂存数据 。 此分段数据的存储成本非常高 。
老化的数据要么昂贵地放在EDW上 , 要么被归档到像磁带这样的便宜系统上 , BI用户和分析人员无法访问它们 。
登台数据的转换通常是长期的 , 对于一个转换工作而言通常要超过一天 。
EDW系统中的大多数CPU(通常> 50%)用于处理这些转换 。 长时间运行的后台CPU使用率降低了同时运行的BI查询的性能 。 这些BI查询是执行EDW的原因 , 但通常无法实现最佳性能 。
EDW写模式要求强调了加载现代数据源(如半结构化社交数据)的能力参考架构
请注意 , 根据您的需求和战略路线图 , 以下任何体系结构均可单独实施或组合在一起实施 。 同样在下面的每个图中 , 红色表示EDW优化数据架构 , 黑色表示现有的数据架构 。 用例1:主动归档
在此用例中 , 将老化的数据卸载到Hadoop , 而不是存储在EDW或磁带等档案存储上 。 可以通过诸如Sqoop(相对于Hadoop的本地工具)之类的工具或诸如Syncsort DMX-h(与YARN和map-reduce集成Hadoop框架集成的专有技术)之类的ETL工具进行卸载 。

「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构
本文插图

好处:
来自EDW的旧数据现在更便宜地存储
来自存档系统(例如磁带)的老化数据现在可供查询
EDW数据现在与湖中的新数据源(如地理空间 , 社交或点击流)结合在一起 。 这些资源的组合可为BI用户和数据科学家提供更大的分析功能 , 例如丰富的数据或客户360分析 。 用例2:EDW卸载
在此用例中 , 登台数据和ETL都从EDW卸载到hadoop 。 原始数据存储在湖泊中 , 并处理成用于Hive LLAP表的清洁和标准化数据 。 清洁和标准化的数据将转换为可导出到现有EDW的结构 。 BI用户继续使用现有的EDW , 而没有意识到下面的管道已更改 。

「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构
本文插图

好处:
原始数据集中在湖泊中 , 可供数据科学家使用 , 并用于其他用例 。 由于存储便宜 , 因此保留了原始数据 。
新的(EDW)数据源被吸收到湖泊中 , 从而如上所述具有更大的分析能力 。
由于并行批处理 , ETL在Hadoop上明显更快 。 ETL时间从几天的一部分减少到几分钟或几小时 。


推荐阅读