监控系统设计( 三 )

监控系统设计
文章插图
 
告警分布式Grafana官方的告警策略是不支持分布式的,因此扩展了其分布式告警的功能 。
第一版分布式告警
在告警配置数量还在上百个、上千个的时候 。在这个阶段,直接在数据库中加了一张锁表,用来处理分布式告警,发送告警前先获取锁,获取成功则继续发送,如果获取失败,取消告警的发送,即谁拿锁谁发送 。同时引入了锁检查的任务 。
第二版分布式告警
随着接入的应用和指标数达到了一定的量级,配置的告警策略也翻了好几倍,数据库实现的锁表出现一定的瓶颈 。因此换了第二版本的实现,即对查询的告警策略数据进行拆分,每个节点跑一部分,实现分布式告警 。
 
告警平台告警回执、告警统计针对告警信息做了定制化,添加告警回执、告警处理等功能,实现告警跟踪、溯源 。

监控系统设计

文章插图
告警回执
异常日志报出来直接将出错内容通过告警发出来,业务方可以快速定位问题 。默认取出现频率较高的top5异常 。
监控系统设计

文章插图
异常推送
监控系统未来方向当前监控系统数据收集方面还是分钟级别,机器指标是十秒级别,无法发现峰值的qps,因为接下来的方向考虑加入秒级监控,实现分钟和秒级监控的灵活切换,需要的时候开通秒级监控,平时使用分钟级监控即可,当然,因为秒级监控很耗费性能,所以也可能单独的在谛听平台去做 。
引入AI算法,对历史数据进行分析、趋势分析,实现告警的智能化,提前预知告警,防患于未然 。
此外当前可观测技术已经越发趋于成熟,Metric、Logging、Tracing逐渐走向统一,三者可以相互跳转、帮助研发快速定位问题,也是我们值得思考的方向,当然我们现在也在逐步的将三者通过一些手段串联起来,加快问题的定位能力 。




推荐阅读