「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构

Hadoop上企业数据仓库优化的参考架构
【「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构】

本文插图

可扩展的廉价存储和并行处理是Hadoop的基础。这些功能使Hadoop在补充和优化传统企业数据仓库（EDW）工作负载中发挥关键作用。此外，最新技术，例如带有ACID合并的Hive LLAP（内存中，长时间运行的执行线程）和AtScale专有软件（HDFS中具有聚合缓存的虚拟OLAP多维数据集）现在首次实现了快速的BI直接针对TB和PB使用著名的BI工具（例如Tableau）在Hadoop上提供大尺寸数据。
本文介绍了EDW优化的三个用例的参考体系结构：
主动归档：在Hadoop上归档陈旧的EDW数据，以实现便宜的存储以及探索性和BI分析。
EDW卸载：将分段数据和ETL转换卸载到Hadoop ，并将最终数据结构导出回现有EDW系统（以实现便宜的存储和Hadoop上更快的ETL ，以及对现有EDW上更快的BI查询）。
Hadoop上的BI：针对Hadoop上的 TB和PB数据的商业智能工具，并有可能淘汰现有的EDW 。问题
与HDFS相比，诸如Teradata和Neteeza之类的EDW系统每GB存储数据的成本高出50倍以上– 100倍以上
EDW系统中的大多数数据（通常高达70％）已分阶段转换为BI查询所用的最终表。 BI用户不会直接查询此暂存数据。此分段数据的存储成本非常高。
老化的数据要么昂贵地放在EDW上，要么被归档到像磁带这样的便宜系统上， BI用户和分析人员无法访问它们。
登台数据的转换通常是长期的，对于一个转换工作而言通常要超过一天。
EDW系统中的大多数CPU（通常> 50％）用于处理这些转换。长时间运行的后台CPU使用率降低了同时运行的BI查询的性能。这些BI查询是执行EDW的原因，但通常无法实现最佳性能。
EDW写模式要求强调了加载现代数据源（如半结构化社交数据）的能力参考架构
请注意，根据您的需求和战略路线图，以下任何体系结构均可单独实施或组合在一起实施。同样在下面的每个图中，红色表示EDW优化数据架构，黑色表示现有的数据架构。用例1：主动归档
在此用例中，将老化的数据卸载到Hadoop ，而不是存储在EDW或磁带等档案存储上。可以通过诸如Sqoop（相对于Hadoop的本地工具）之类的工具或诸如Syncsort DMX-h（与YARN和map-reduce集成Hadoop框架集成的专有技术）之类的ETL工具进行卸载。

本文插图

好处：
来自EDW的旧数据现在更便宜地存储
来自存档系统（例如磁带）的老化数据现在可供查询
EDW数据现在与湖中的新数据源（如地理空间，社交或点击流）结合在一起。这些资源的组合可为BI用户和数据科学家提供更大的分析功能，例如丰富的数据或客户360分析。用例2：EDW卸载
在此用例中，登台数据和ETL都从EDW卸载到hadoop 。原始数据存储在湖泊中，并处理成用于Hive LLAP表的清洁和标准化数据。清洁和标准化的数据将转换为可导出到现有EDW的结构。 BI用户继续使用现有的EDW ，而没有意识到下面的管道已更改。

本文插图

好处：
原始数据集中在湖泊中，可供数据科学家使用，并用于其他用例。由于存储便宜，因此保留了原始数据。
新的（EDW）数据源被吸收到湖泊中，从而如上所述具有更大的分析能力。
由于并行批处理， ETL在Hadoop上明显更快。 ETL时间从几天的一部分减少到几分钟或几小时。

「发家致富全靠它」Hadoop上企业数据仓库优化的参考架构

推荐阅读

四季|海通策略荀玉根：坚持认为四季度市场的行情较好中短期大金融地产更优

尖椒黄瓜的做法大全是什么呢？

经济日报|宁德时代携手河南跃薪打造电动智慧无人矿山新生态

学英语需要电子词典吗?

累计|约翰斯·霍普金斯大学：全球累计新冠确诊病例超过3500万例

佳禾国际家政|建议少奶的宝妈收藏，适合坐月子吃的16种食物

科技美学：22款新品一同亮相，小米10周年米粉节开幕

一点美丽|Dunk 都炒到10w 了？，TS、周董钟爱的“牛仔系列”！这年头牛仔

热映电影票房榜，《八角笼中》破10亿，不敌《长安三万里》排第二

央视财经|涨涨涨！这里的房价创纪录！两年涨了近三成！咋回事？

【小何美食屋】鲜甜脆嫩，美味可口，让味蕾来一次全新的体验，孩子们很抢手的菜

波丰娱乐|“我们考虑了每平方毫米”设计出的越野车原来外观这么简单

小四的娱乐|林志玲康复后首现身！低扎马尾辫穿灰色连衣裙，46岁状态优雅美

制造业|行业唯一，欧派家居连续四年入选中国制造业民营企业500强

天冷吃面正合适，教你香气四溢的麻油鸡汤面，营养美味很过瘾

[热刺]六大项数据全场第一，穆帅找到热刺真核！

二海藻酒方的功效与作用

郑州的袁希福医术是真是假，网上水军太多，我想寻一答案?

新华网|新研究说一种降胆固醇药物可能有助治疗新冠

炼钢工艺流程图炼钢工艺流程