10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货
今天给大家分享一套方法论 , 累计10W+阅读 , 1W+点赞的大数据平台建设方法论 。
在数据平台建设的前期来说 , 做大数据平都是为了日后的数据分析来做基础的 。 那样就一定要规划出适合企业的方案 。 根据目前国内大部分企业或者单位的我们可以大致分为几类:
(1)目前企业已经有明确的数据分析需求 , 对于需要分析的数据有明确的目标 。 知道自己想要采集哪些应用的数据 , 也明确出数据分析要达到的最终效果 。 这样我们就可以与相对应的应用系统做数据的采集 , 并对采集的数据进行标准化的处理 , 最后进行存储、分析、建模 。
(2)目前企业不清楚自己数据分析的目标 , 但是想做一些大数据的治理以及规划 。
(3)对于一些还没有完整的信息化体制的企业来说 , 可能只有一两个应用 。 在规划信息化建设时要规划好自己企业的数据的建设 , 要统一应用间的数据标准 。 然后做出数据中台的规划 。
本文插图
整体方案设计时需要考虑的因素:
- 数据量有多少:几百GB?几十TB?
- 数据存储在哪里:存储在MySQL中?Oracle中?或其他数据库中?
- 数据如何从现在的存储系统进入到大数据平台中?如何将结果数据写出到其他存储系统中?
- 分析主题是什么:只有几个简单指标?还是说有很多统计指标 , 需要专门的人员去梳理 , 分组 , 并进行产品设计;
- 是否需要搭建整体数仓?
- 是否需要BI报表:业务人员有无操作BI的能力 , 或团队组成比较简单 , 不需要前后端人员投入 , 使用BI比较方便;
- 数据接入
- 数据处理
- 数据分析
本文插图
数据接入是将数据写入数据仓储中 , 也就是数据整合 。 因为在企业中 , 数据可能分布在外部和内部 , 分布在外部的是企业使用第三方系统产生的数据和一些公共数据 , 分布在企业内部的是企业内部IT系统产生的数据 。
这些数据一般都是独立分布的 , 也就是所说的数据孤岛 , 此时的这些数据是没有什么意义的 , 因此数据接入就是将这些内外部的数据整合到一起 , 将这些数据综合起来进行分析 。
对小公司来说 , 大概自己找一两台机器架个集群算算 , 也算是大数据平台了 。 在初创阶段 , 数据量会很小 , 不需要多大的规模 。 这时候组件选择也很随意 , Hadoop一套 , 任务调度用脚本或者轻量的框架比如luigi之类的 , 数据分析可能hive还不如导入RMDB快 。
监控和部署也许都没时间整理 , 用脚本或者轻量的监控 , 大约是没有ganglia、nagios , puppet什么的 。 这个阶段也许算是技术积累 , 用传统手段还是真大数据平台都是两可的事情 , 但是为了今后的扩展性 , 这时候上Hadoop也许是不错的选择 。
比如你的数据接入 , 之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS , 现在可能不行了 , 这些大概没有高性能 , 没有异常保障 , 你需要更强壮的解决方案 , 比如Flume之类的 。
你的业务不断壮大 , 老板需要看的报表越来越多 , 需要训练的数据也需要清洗 , 你就需要任务调度 , 比如oozie或者azkaban之类的 , 这些系统帮你管理关键任务的调度和监控 。
本文插图
数据处理是对接入的数据进行数据清洗和ETL建模 , 将各个数据表之间的关系建立起来 , 比如关联 , 聚合 , 追加等等这些处理 。
最后来说说数据分析吧 。
推荐阅读
- 成都全搜索|史上首次,私人公司载人上太空!“狂人”马斯克想送100万人去火星
- 海信|海信17%股权引战投 海外困局仍难解?曾传裁员万人
- 爆侃数码圈|天猫年轻人首款高档“玩具”,0.4秒反应,8K视频解码,双10W音质
- IT时代网|万人共鉴,变形金刚空降平江! 助力平江红星美凯龙城市展厅倾城盛放
- 『快手』四川快手互联网信息有限公司成立,注册资本500万人民币
- 【吉利】吉利与戴姆勒合资品牌“耀出行”在西安成立新公司,注册资本6000万人民币
- ##彩色电子水墨屏畅读更出色 海信彩墨屏阅读手机 A5 Pro CC 版图赏
- 『控股』如涵控股关联公司成立电商新公司,注册资本100万人民币
- IP200 粉做到 10w+?公众号跨界私域社群?成功 IP 是这么做的
- 『公司』滴滴关联公司成立国际旅行社公司 注册资本5000万人民币
