系统|华青融天战略拓展总监王旭详解IT运维的九阳神功( 二 )


很多大型商业机构如银行、证券、运营商等 , 动辄几十上百套应用系统 , 有些是标准的商业软件 , 有些是国内定制开发的行业软件 , 它们的数据报文格式五花八门 , 犹如进了联合国 , 要求监控系统必须有几百种语言的同声传译水平 。 而且性能也是一个关键挑战 , 因为每秒都有若干GB的流量汹涌而来 , 能否及时地解析它们 , 要求软件的流量工程能力极强 。
系统|华青融天战略拓展总监王旭详解IT运维的九阳神功
图片

例如 , 上面就是一段报文 。 肉眼一看 , 如看天书。 但是如果解码引擎合理地配置了报文解码规则 , 就像大脑内置了一本强大的字典 , 就能解码报文背后的应用信息 , 进而计算出各种指标 。
有哪些常见的报文协议类型?DNS、FTP、Telnet、ICMP、Syslog、SNMP、HTTP、POP3、IMAP3、DHCP、RSYNC、NFS、RSH、MEMCHAED、REDIS、XML、Weblogic JMS、Tuxedo、XML OVER TCP、EJB、RMI、JSON、SOAP、CUPS、CTG、Oracle TNS、短信通知平台(移动 , 电信 , 联通)、MYSQL、DB2……
可见 , 对于一个APM系统的建设 , 应用系统报文协议的解析规则是重要一环 。 一方面 , 开发商需要具有深厚的积淀 , 具备丰富的报文解析规则库 , 能解析常见的商业软件;同时 , 建设单位需要提供自身的定制化系统的报文规则 , 供系统配置补充 , 这方面也必须方便易用 。
九阳神功第三重:至阳热气
至阳热气 , 全力施展可将人焚为焦炭 , 专门克破所有寒性和阴毒内力 。 ——《倚天屠龙记》
天下武功 , 唯快不破 。
如果系统已经出现了性能劣化 , 甚至应用已经宕机 , 你肯定不希望明天早晨才发现 。 所以 , 对于应用监控系统来说 , 性能计算和告警的时效性是关键 , 第一时间发现问题先兆 , 听风辨器、及时预警、防患于未然 , 才是运维的最高境界 。 业界往往把数据分为热数据(实时)、温数据(warm)和冷数据 , 对于关键性的业务监控系统而言 , 对于数据的要求一定是最高热度的 , 正所谓至阳热气 。
系统|华青融天战略拓展总监王旭详解IT运维的九阳神功
图片

例如 , 上面是一个金融单位的典型的业务监控界面 , 每个业务板块和业务系统的性能指标实时刷新 , 当某系统出现问题时 , 红色告警就会闪现 。 这些性能指标的更新和告警的判断 , 要求后台的计算引擎有着最强大的计算和判断能力 。
各位少侠要了解 , 告警的判断是一个非常复杂的问题 。 如果仅仅是与静态阈值相比较而触发告警 , 是远远不够的 。 例如 , 一家机构的业务量往往具有一定的时间分布特点 , 如工作日较高节假日较低 , 上下午会各有一个交易高峰等等 , 只有具备智能的算法 , 对一段历史时间内的指标进行动态基线比对 , 发现指标的浮动超出了一定范围 , 才判断为异动 , 触发告警 , 提请用户注意 。
要做到这些 , 让热气腾腾的性能和告警数据实时呈送到界面 , 就需要在秒级完成从数据流采集到报文解析到性能指标计算和告警识别 。 具体技术 , 各村都有各村的高招 , 华青融天通过采取不落地的内存计算方式 , 能够保证数据的秒级处理 , 在近期一家金融机构的实测中 , 每秒处理的交易量超过70万笔 。
九阳神功第四重:缩骨大法
他心中只一个念头:“这小子比我高大 , 他能钻过 , 我当然更能钻过 。 ”想法原本不错 , 只是有一点却没料到:张无忌已练成了九阳神功中的缩骨之法 。 ——《倚天屠龙记》
缩骨大法者 , 化大为小 , 小中见大 , 见微知著也 。
魔鬼往往在细节中 。 对于业务系统的监控 , 基本的监控粒度有多大 , 决定了故障定位的精度 。 前面给大家讲过监控系统的数据来源 , 以旁路镜像数据流为最佳选择 , 数据流中全部业务系统之间的数据流纠缠在一起 , 剪不断理还乱 , 必须化大为小 , 从大的数据流中拆分一个个小的逻辑对象 , 才能锁定真正的问题 。


推荐阅读