系统|华青融天战略拓展总监王旭详解IT运维的九阳神功( 三 )

图片
举个例子 , 上面是一个的典型银行应用 。
粗看起来 , 每分钟2000笔的交易量 , 平均响应时间100ms , 成功率90% , 响应率90% , 看起来还不错 。 大部分业务监控系统 , 只能做到这一步了 。
但如果我们细看不同的渠道发出的请求 , 就会发现 , 应用细分为网银、柜面、第三方支付和理财平台四个部分 , 其中前三个是正常的 , 但理财平台的成功率和响应率都只有10% , 已经是严重故障了 。
因为理财平台的这200笔交易 , 只占了总交易量的10% , 问题被其他交易掩盖了 。 如果这些细微的隐患不及时发现 , 以后会逐渐演变为更大范围、更严重的问题 。
这就是细化监控对象、化大为小、见微知著的价值所在 。 作为一个运维人员 , 必须练就一双慧眼 , 有一套神器 , 方能及时杜绝小隐患引发的大麻烦 。
运维人员使用的软件工具 , 必须具备细分监控对象的能力 。 华青融天的EZSonar系统(鹰眼) , 一个重要特点就是微监控 , 在数十家金融机构得到广泛应用 。
九阳神功第五重:龟息大法
这乾坤一气袋密不通风 , 他在袋中耽了这许多时候 , 早已气闷之极 , 仗着内功深湛 , 以绵绵龟息之法呼吸 , 需气极少 , 这才支持了下来 。 ——《倚天屠龙记》
江湖上有气长命长之说 , 龟一次呼吸45秒一般寿命500年 , 人一次呼吸5秒一般寿命80年 。 要是看见一个人大口喘气 , 上气不接下气 , 估计离挂掉不远了 。
所谓龟息大法 , 就是内功高手对生命节奏的掌控 。 从容淡定 , 方能应付裕如、行稳致远也 。
作为一个IT系统的运维人员 , 最重要的就是不要让自己被虚假的无意义的信息淹没 , 忙的四脚朝天 , 反而忽视了重要的问题 。 我们经常看到 , 大量软硬件平台和应用系统不断发出告警信息 , 快速刷屏 , 在这种情况下 , 如何对告警进行高效的精准处理 , 分级、压缩和降噪 , 去伪存真 , 及时识别真正的故障和隐患 , 就是最重大的课题了 。
第一是减少误告警 。 比如 , 某一时刻交易量突然降低 , 但只是暂时性波动 , 很快又恢复正常 , 这种异常是没必要告警的 。 有些批处理也可能导致某一刻交易量突发 , 这种也属正常情况 , 往往也不需要告警 。
第二是准确把握业务的正常规律 , 精准地对异常业务流发出告警 。 这张图显示了对交易量的监控 , 利用大数据和机器学习技术 , 根据历史数据产生动态基线 , 以基线来反映正常交易量的规律 , 如果真实的交易量与基线的差异过大 , 则说明发生了异动 , 此时才触发告警 , 避免误告警的发生 。
第三是提升每一个告警的有效性 , 减少告警数量和频次 , 通过告警关联功能找出事件之间的联系 , 去除告警杂音 , 让告警更加精准有效 。
凡此种种 , 在告警的处理上要寻找一种平衡 , 通过智能的算法 , 反映实际业务的规律和异常事件间的关系 , 不漏报不误报 , 让运维人员应对从容 。 这就是华青融天EZSonar强调的“轻告警” 。
九阳神功第六重:壁虎游墙
赵敏笑道:“张公子 , 你的壁虎游墙功当真了得 , 这陷阱是纯钢所铸 , 打磨得滑不留手 , 连细缝也没一条 , 你居然游得上去!”——《倚天屠龙记》
一说到墙 , 当然联想到运维部门的大屏 。 如今的运维大屏 , 不仅可视化效果美轮美奂 , 实时性也可以达到秒级 , 网络、服务器和应用的问题 , 第一时间上墙 。 数字和红绿点线游动跳跃 , 如同壁虎游墙 。 
图片
图片
可视化做的好 , 各种实时数据集中直观地显示 , 是大屏的最大优点 。 一般都是从大屏发现了问题 , 才一步步向下钻取 , 挖掘到问题的根源 , 所以一块丰富而直观的大屏、实时性的数据展现、随心所欲的视图定制、方便快捷的钻取功能 , 是每个运维人员的梦想 , 也是衡量一个监控系统好坏的关键 。
推荐阅读
- 防撞|基于DSP的汽车防撞雷达系统设计,快去给自己的车也搞一个
- 中华中学|教育部科技司司长雷朝滋调研清帆“AI主动安防”系统
- 科学|在太空中,免疫系统是否有影响?
- 新机发布|今年无缘华为鸿蒙系统手机,余承东:明年可能会公布相应计划
- Android系统|华为EMUI 11提前泄密,这三点将大幅提升,鸿蒙OS 2.0同步亮相
- 小谦|小米手表迎来全新系统升级,“小习惯”功能成最大亮点
- 技术|最新《中国禁止出口限制出口技术目录》发布,新增操作系统、密码芯片安全技术
- Android系统|小米10尊享版更新MIUI12.0.8:支持长焦取景窗快速移出屏幕功能
- 趣头条|安卓11系统可无线连接车载安卓多媒体
- 苹果手机,IOS系统|iphone7仍未失去购买力,这是一份通俗的购机报告
