数据处理自下到上包含数据获取 RouterIn、数据清洗 (DataClean)、共性加工 (SparkSql/Inceptor Sql) 和批量数据访问服务 OpenFile 。
通过 Router 实现不同数据平台间的数据交互,屏蔽平台间的差异,配置化开发,提升了开发效率,降低了人为失误导致的问题,实现了数据的快速接入和分发 。
基于 Inceptor 和 SparkSql 设计开发了数据共性加工模块 DcCore 和 Dispose,实现了数据的快速加工,并支持模板式的配置开发,有效提升了共性加工的开发效率 。
2、 任务调度体系
为实现调度批次轻量化,精细化数据依赖,避免批次等待,通过任务组织模块化,来实现作业调度的导出与上线 。
系统间的调度通过 CPS,实现批量作业执行,系统内部调度通过 moia 联动,可支持更小粒度的作业调度,实现了作业调试的效率和灵活 。
3、 开发辅助体系
开发人员需要对数据处理及任务调度单独开发一系列的代码和配置文件,人为操作不仅效率低,而且易出错 。通过辅助开发工具,可根据每个模块的规范,自动生成代码及配置文件,并提供可视化界面,提升开发效率,降低成本和风险 。
支持的功能分为自动化创建、自动化校验、调度管理、模型管理和元数据管理 。
4、 数据管理体系
数据管理体系建设目的是为了降低运维成本,对源数据、加工数据、数据质量、作业运行进行统计分析,分析结果通过 Web 页面展示以方便对系统及数据的查看管理,并对于重要信息进行监控告警,其核心模块包括信息采集模块、数据质量管理、系统运行分析和监控告警 。
DC 的构建在民生银行中起到承上启下的作用,汇集了各渠道的数据,经过统一清洗、关联整合,并对数据进行深层的分析挖掘,进而向上游应用提供服务,从后台走到中台,直接、快速地向应用系统提供数据服务和大数据能力,发挥数据内在的威力 。目前 DC 系统管理了近源数据 5000 余项、共性加工数据 800 余项,为包括风险领域、运营领域、移动互联领域等 8 个领域,20 余个系统,50 余个场景提供数据或计算支持 。
四、在线机器学习平台背景及目标目前的机器学习技术,尤其是智能算法,具有很高的技术门槛,需要顶级专业团队的持续投入,每个项目单独去关注技术的变化并落地代价太高 。模型研发实践亟需一个统一的机器学习平台,用以规范模型开发流程,封装和简化各类算法的使用,支持多种多样的数据预加工,提供和管理模型预测服务 。最终满足数据分析师、业务专家、软件开发等不同角色的不同层次的模型研发实践诉求 。
机器学习平台建设旨在:
- 基于 Hadoop 技术栈的平台型环境,提供业内最新的模型算法;
- 基于 Hadoop 技术栈的分布式环境,支持超大规模的模型场景;
- 为一般模型研究人员提供便捷的基于算子和工作流的图形环境;
- 为高阶模型研究人员提供全面的基于编程的模型开发管理环境 。

文章插图
图 7、机器学习平台功能架构图
建设现状项目一期中建设了机器学习平台系统核心模块,覆盖了模型研发的主要流程,主要分为调研平台和预估服务两大子模块 。海量样本学习、高维特征分析处理和自动特征组合能力是其最大亮点,示意图如下:

文章插图
图 8、机器学习平台系统基本示意图
整个平台主要通过网站交互式功能为用户提供服务 。模型生命周期内的几个大的阶段都已经封装成算子的功能模块,模型的研发过程就是在一块“画布”上,通过拖拽算子,串联模型研发的各个阶段,绘制创意蓝图 。如下图所示:

文章插图
图 9、拖拽算子进行模型研发
对于训练好的模型,平台支持一键发布为在线预测服务 。从研发到服务,不再需要庞杂的代码与流程 。只要对学习模型有概念,对于领域问题有好的创意 。就能在拖拽之间,点选之后获得一个高性能的,高可用的预测服务 。就能实现业务决策的更加精确化、智能化 。
推荐阅读
- Redis如何清除过期key? 一篇文章带你走近源码!
- 哪些人能申领失业保险金?去哪里申请?带你了解
- 北京环球度假区怎么去?地铁、驾车都方便,小编带你走一趟
- 阿里巴巴|阿里技术副总裁贾扬清回应逃离上海:正常差旅回去看病 请大家不要误解
- 糖尿病到底有多可怕?一图带你读懂
- 带你认识Python中黑客喜欢攻击的10个安全漏洞以及应对方法
- 武当太极九式详细讲解 带你了解武当太极
- 带你彻底掌握 Vue 3.0 的响应式系统
- 带你玩转MySQL,索引揭秘,看我是如何让你的查询性能指数提升的
- 手把手带你搭建一个自己的云服务器并部署Web程序
