微服务环境如何设计用户友好的监控系统?( 四 )
告警不及时处理常见情况:
- 告警没有触达实际责任人
- 告警接收人不清楚告警严重程度 , 疏忽相关告警处理 。
2. 结合异常恢复检测对告警收敛 , 合理取消业务恢复提醒 , 形成告警触发立刻处理 , 不需处理尽量不触发原则 。 短时间 (如 1 分钟) 恢复不影响业务(如查询服务) , 可不触发告警 , 仅在系统记录 , 供相关运营人员定时 review 。 若反复发生则触发告警 。 关键服务 (如跟用户相关写操作) 异常一旦发生 , 立刻触发告警 , 避免等业务恢复 。
3. 平衡告警灵敏性和完整性 。 敏感并且意义明确的告警 (如内部服务没有权限调用) 可以秒级触发告警 。 对一些复杂告警 (如内部多个模块超时场景) , 适当延迟 , 给出超时原因 。 以免相关人员即使第一时间收到不完整告警信息 , 还需花更多时间定位异常原因 。
4. 报警触达到责任人时 , 图形展示当前变化趋势以及历史变化趋势 , 并能进行实时查询 。
一个用户友好的监控系统不但需持续技术升级改进 , 也需与用户一起协作建立合理流程规范 。
延伸阅读:
实践微服务六年 , 我获得了这些心得体会-InfoQ
日调 1000 亿 , 腾讯微服务平台的架构演进-InfoQ
关注我并转发此篇文章 , 私信我“领取资料” , 即可免费获得InfoQ价值4999元迷你书 , 点击文末「了解更多」 , 即可移步InfoQ官网 , 获取最新资讯~
推荐阅读
- 亚马逊终止托管服务:Parler网站下线
- 大一非计算机专业的学生,如何利用寒假自学C语言
- Git服务器配置错误导致日产汽车源码在网上泄露
- 虾米音乐,下个月正式停止服务
- 虾米音乐播放器将于2月5日停止服务,今开启用户资产处理通道
- 服务|虾米音乐:2月5日关停3月5日后将无法登录
- 天猫精灵App全新升级,推出“精灵家”服务
- 快递员拒绝送货上门并大喊大叫!经济学者马光远吐槽德邦快递服务烂:流氓至此,坚决抵制
- 亚马逊宣布停止为Parler提供托管服务
- 亚马逊员工权益组织呼吁AWS拒绝为Parler提供托管服务
