10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货( 二 )


数据分析一般包括两个阶段:数据预处理和数据建模分析 。 数据预处理是为后面的建模分析做准备 , 主要工作时从海量数据中提取可用特征 , 建立大宽表 。 这个过程可能会用到Hive SQL , Spark QL和Impala 。
数据建模分析是针对预处理提取的特征/数据建模 , 得到想要的结果 。 如前面所提到的 , 这一块最好用的是Spark 。
在完成了底层业务数据整合工作之后 , 长久物流在整合业务系统数据的基础上 , 通过FineReport数据决策系统 , 有效集成了各个业务系统的实时数据 , 并根据各个部门的需求搭建了数据分析模板 。
10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货
本文插图


10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货
本文插图

总结
首先要有Hadoop集群 , 在有HDFS与Hive后 , 才能开展数据接入工作 , 才能基于集群建设工具链;当工具链部分的OLAP引擎构建好 , 才有上层BI、报表系统和数据API 。
【10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货】所以弄清了每个部分的相互关系也就容易明白大数据平台的建设流程 。


推荐阅读