
文章插图
告警分布式Grafana官方的告警策略是不支持分布式的,因此扩展了其分布式告警的功能 。
第一版分布式告警
在告警配置数量还在上百个、上千个的时候 。在这个阶段,直接在数据库中加了一张锁表,用来处理分布式告警,发送告警前先获取锁,获取成功则继续发送,如果获取失败,取消告警的发送,即谁拿锁谁发送 。同时引入了锁检查的任务 。
第二版分布式告警
随着接入的应用和指标数达到了一定的量级,配置的告警策略也翻了好几倍,数据库实现的锁表出现一定的瓶颈 。因此换了第二版本的实现,即对查询的告警策略数据进行拆分,每个节点跑一部分,实现分布式告警 。
告警平台告警回执、告警统计针对告警信息做了定制化,添加告警回执、告警处理等功能,实现告警跟踪、溯源 。

文章插图
告警回执
异常日志报出来直接将出错内容通过告警发出来,业务方可以快速定位问题 。默认取出现频率较高的top5异常 。

文章插图
异常推送
监控系统未来方向当前监控系统数据收集方面还是分钟级别,机器指标是十秒级别,无法发现峰值的qps,因为接下来的方向考虑加入秒级监控,实现分钟和秒级监控的灵活切换,需要的时候开通秒级监控,平时使用分钟级监控即可,当然,因为秒级监控很耗费性能,所以也可能单独的在谛听平台去做 。
引入AI算法,对历史数据进行分析、趋势分析,实现告警的智能化,提前预知告警,防患于未然 。
此外当前可观测技术已经越发趋于成熟,Metric、Logging、Tracing逐渐走向统一,三者可以相互跳转、帮助研发快速定位问题,也是我们值得思考的方向,当然我们现在也在逐步的将三者通过一些手段串联起来,加快问题的定位能力 。
推荐阅读
- Qt编写安防视频监控系统27-GPU显示
- 淘宝店铺原创设计认证 淘宝店铺怎么认证
- 写字楼设计装修风格有哪些
- 阳台客厅隔断设计技巧
- 广告设计师应该学些什么
- 你会喜欢吗?Apple新版 macOS 更改了所有图标设计
- Spring启动原理和可扩展设计分析
- 茶叶包装设计,茶叶包装设计的要素和要求
- 茶包装的设计要素,包装设计的要素和要求
- 架构设计 | 高并发流量削峰,共享资源加锁机制
