行业互联网|阳光保险:全链路监控平台


项目背景及目标
随着科技进步 , 众多新的技术、平台、系统逐渐投入使用 , 各系统向智能、微服务、高可用化转型 , 系统服务能力及运行效率显著提升 , 也为业务开展提供了坚实基础 , 但也带来了新的挑战:
1.面对越来越多的平台、子系统、服务器、数据库等设施 , 需在异常时具备快速定位、有效诊断能力 。
2.需对众多设施统一进行监控及大数据计算 , 在影响业务使用前智能预警 , 保证系统稳定运行 。
为更好的保证业务可以稳定及快速的开展 , 提高系统运营效率和质量 , 自研全链路监控平台:以应用系统为视角 , 对应用系统有关的设施、中间件、网络、数据库、运行环境等进行闭环、可视化的监控 , 通过大数据计算进行智能预警 , 提升系统运营数字化能力 。
创新点
本方案可实现多监控数据源的整合 。 业务系统稳定运营对业务开展至关重要 , 而业务系统运行又依赖基础设施、应用、中间件、网络、数据库等设施 , 任何设施出现异常都会直接影响业务系统 , 进而影响业务开展 。
目前常规监控工具能监控到数数据有限 , 比如只能单独监控基础设施、中间件、网络或者其他应用、数据、容器、大数据、日志等类型 , 无法通过统一平台实现全面监控 , 需要有一个监控平台一方面可以复用原有监控 , 一方面可接入原有监控不支持的监控链路 , 并且将原来各设施孤岛式的监控数据打通 , 形成监控数据集市 。
1.全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施 , 进而快速解决异常 , 减少业务损失;通过大数据进行智能预警 , 避免异常发生 , 避免业务损失 。
2.具备监控输出能力,子公司可以快速对接并结合自己的业务特点 , 有效的提高运维能力 。
3.为后续数据湖的形成以及智能化学习提供坚实的数据基础
项目方案和技术实现
全链路监控 , 采用大数据技术 , 整合基础架构层、业务应用层和用户端运行数据 , 实现实时的系统运营全生命周期监控 , 提供多视角、多维度的可视化展示 , 既可为公司整体IT运营决策性提供数据支持 , 又为一线运营人员提供及时的问题定位工具 。 闭环、可视化管理 , 提升系统运营数字化能力 , 极大地提高系统运营效率和质量 。
全链路监控分四个部分:

行业互联网|阳光保险:全链路监控平台
本文插图

【行业互联网|阳光保险:全链路监控平台】1. 监控数据源:产生并记录监控数据 。 具备产生、记录监控数据能力的系统、工具、服务、设备统称为监控数据源 。 本方案主要包括前端监控数据 , 应用相关监控数据 , 基础设施相关监控数据 , 业务流程相关监控数据 。
2. 监控数据收集:从各处收集监控数据 。 数据收集模块根据数据源的特点 , 通过不同方式将监控的数据源进行收集汇总成统一的格式,发送到大数据平台进行处理计算 。
3. 监控数据计算:实时、批处理进行监控数据计算、分析、存储 。 通过使用阳光云提供的大数据计算能力 , 将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中 , 供前端数据展示使用 。
4. 监控数据展示:对监控数据进行大屏展示 , 供运维人员实时监控系统健康状态 , 通过告警推送(包括多告警源接入、告警设置、告警通知等功能) , 及时提醒运维人员处理系统问题 。
项目过程管理
本项目分两个批次 , 对产品功能进行迭代开发 , 版本发布后 , 根据用户在实际使用过程中的痛点逐步迭代完善系统功能 。
1、需求分析和概要设计阶段
项目第一批次时间段为2019年4月至2019年5月 。 期间主要完成需求调研 , 系统业务功能的分析 , 产品原型设计 , 系统架构选型 , 系统周边接口的概要设计 。 提交系统需求规格说明书 。


推荐阅读