「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构( 二 )


ETL已从现有EDW中删除 。 这样可以释放大量的CPU , 从而显着提高BI查询的速度 , 从而使BI用户更加满意 。 用例3:Hadoop上的BI
该用例与上述EDW卸载相同 , 但EDW被Hadoop上的OLAP完全替代或由OLAP增强 。 对于未开发的环境 , OLAP的替换(即预防)特别有吸引力 。

「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构
本文插图

好处:
与以前的用例相同
OLAP查询直接针对湖中的数据运行 。 与传统的OLAP相比 , 湖中的OLAP可以处理的数据量更大 , 并且可以包含丰富的数据和新的数据源(例如地理位置 , 社交 , 点击流) 。
湖中的OLAP可以替代或阻止实施昂贵且受约束的传统OLAP系统 。 结论
传统的企业数据仓库正在感受到现代大数据时代的压力:这些仓库的价格难以承受 , 价格昂贵;它们的大部分数据存储和处理通常专用于BI查询的准备工作 , 而不是查询本身(仓库的目的);很难存储各种数据 , 例如半结构化社交和点击流;由于成本和扩展性的原因 , 它们受到可存储多少数据量的限制 。
通过将数据和ETL卸载到此平台 , Hadoop的可扩展的廉价存储和并行处理可用于优化现有EDW 。 此外 , Hive LLAP和Druid或Jethro等最新技术使您可以将仓库转移到Hadoop , 并直接针对Hadoop上的TB和PB运行BI工具(Tableau , MicroStrategy等) 。 本文中的参考体系结构展示了如何在Hadoop上和在Hadoop上构建数据 , 从而在成本 , 性能和大数据策略方面获得重大收益 。 干嘛要等?


推荐阅读