[大数据]高通量低延迟的云环境大数据流水线架构
在现实环境中部署大数据分析、数据科学和机器学习应用 , 分析优化和模型训练仅占全部工作量的 25% , 约 50% 的工作用于准备适用于分析和开展机器学习的数据 , 其余 25% 的工作是实现易于使用的模型推理和洞察分析 。 数据流水线将各个过程组织在一起 , 为机器学习这列重载而神奇的列车提供轨道 。 只有基于正确配置的流水线 , 方能确保项目的长期正常运行 。
本文将从以下四个维度展开 , 阐释数据流水线及实现各步骤的可选组件:
- 需求愿景:切实了解用户的愿景 , 即可对症下药 。 此节将分析各种需求 , 阐释数据流水线需提供的相应工程特性 。
- 流水线:此节从数据湖和数据仓库中数据流转的角度 , 从概念上阐释数据流水线的各个过程 。
- 组件选取:此节阐释实现处理规模和速度权衡的 Lambda 架构 , 以及 Lambda 架构中关键组件在技术上的选取 。 此外 , 此节将概要给出 AWS、Azure 和 Google Cloud 提供的无服务器流水线 。
- 生产环境:此节给出成功实现生产环境数据流水线的一些小提示 。
本文插图
图 1 需求愿景就是从最有利的角度给出观察
构建数据分析平台和机器学习应用的切实用户可归为三类 , 即数据科学家、工程人员和业务管理人员 。
数据科学家的目标是针对给定的问题和可用的数据 , 给出鲁棒性最好且计算复杂度适中的模型 。
工程人员的目标是为用户构建可信赖的产品 。 工作创新之处在于构建新产品 , 或是以新的运行方式运行现有的产品 , 实现无需人工干预的 7X24 不间断运行 。
业务管理人员的目标是向用户交付有价值产品 。 这正是科学和工程所要达成的目标 。
本文聚焦于工程人员 , 并兼顾其它两方面 , 特别是从处理机器学习应用所需海量数据的角度 。 由此 , 数据流水线所需的工程特征为:
- 可访问性:数据科学家易于访问数据 , 最好是能通过查询语言访问数据 , 以便开展假设评估和模型实验 。
- 可伸缩性:随获数据量增加而弹性扩展的能力 , 同时维持较低的成本 。
- 效率:在设定时间开销内给出数据和机器学习结果 , 满足业务目标的需求 。
- 可观测性:对数据和流水线健康状态自动报警 , 满足主动反馈潜在业务风险的需求 。
本文插图
图 2 成功的机器学习必需具备运作润滑的数据流水线
数据只有在被转化为具备可操作性的洞察 , 进而洞察得到及时得交付使用 , 其价值方能体现出来 。
数据流水线实现端到端的操作组 , 其中包括数据收集、洞察转换、模型训练 , 洞察交付和应用模型 。 无论何时何处 , 只要业务目标有需求 , 流水线就会立刻运转起来 。
和新油田一样 , 数据虽然价值不斐 , 但未经加工则不能真正得以应用 。 必须深加工为天然气、塑料、化学制品等方式 , 才能创造出有利可图的有价实物 。 因此数据必须拆解分析后 , 才能体现出自身的价值 。
——Clive Humby , 英国数学家 , 乐购会员卡架构师
数据流水线主要包括五个过程 , 可分组为三个阶段:
- 数据工程:采集、获取和准备;(占总工作量的 50%)
- 分析 / 机器学习:计算;(占总工作量的 25%)
- 交付:结果展示 。 (占总工作量的 25%)
获取:受控数据源将数据推送到各种设定的数据入口点 , 例如 HTTP、MQTT 和消息队列等 。 也有一些任务从 Google Analytics 等服务导入数据 。 数据具有两种形态 , 即 BLOB 和流数据 。 所有数据将汇总到同一数据湖中 。
推荐阅读
- []重庆移动-亚德高等级数据中心落户西永微电园
- 平台■在线视频平台大数据杀熟成惯例 买VIP就活该被宰?
- 「数据线」手机充电慢?那你需要看看是不是这些地方出了问题
- 大数据:这套绝对是2020年大数据最全面的线路图+实战项目+源码限时赠你
- 【Ace】原创 用实际数据发声,OPPO Ace2的这些亮点你要知道
- #颜七公子#TunesKit iPhone Data Recovery for Mac(iPhone数据恢复工具)
- 华为荣耀■华为突然宣布新5G处理器,高通直叹气,很无奈,差距又拉大了
- 「台湾积体电路制造公司」台积电正式宣布!苹果华为或成最大赢家,高通还是晚了一步!
- 邓锄头挖科技■关于IDC数据中心的“容量管理”的目标和3种子业务场景
- 技术@为楼宇安上“智慧大脑”,翠苑街道开创“一平台”数据互通模式
