XSKY SDS V4.2重磅发布,为数据基础设施注入“免疫力”( 二 )
实时IO流程的数据校验使得分布式系统整体容错性大大增强,同时解决了数据一致性的即时性问题,避免任何情况下应用从存储系统中读取可能的不一致数据 。
----XSKY SDS V4.2重磅发布 , 为数据基础设施注入“免疫力”//----
实时数据校验可以按照卷的粒度开启或者关闭,内部实验室性能综合测试评估对系统的性能峰值影响少于10% 。 建议关键业务开启实时数据校验功能,避免静默错误的发生 。
2、硬盘亚健康检测
硬盘亚健康引起的系统性能抖动是分布式存储极难处理的现象之一,自动检测集群中的慢盘和坏盘,告警并自动隔离,是存储系统在健壮性上的必要支撑 。
在新版本中,XSKY进一步完善了检测方法和处理机制 。 坏盘判断相对简单,会通过检测SCSI/NVME的IO指令错误码,以及相关设备的介质事件发生(如拔盘)等进行坏盘决策 。
而判断慢盘是最需要经验的 。 XSKY根据现网大量的已部署集群的工程经验,将算法应用到所有的存储介质守护进程(OSD)中进行实时分析,其采用三个维度来判断慢盘:
?纵向时延比较:本OSD的性能延迟超过阈值的次数;
?横向时延比较:与存储池内其他OSD平均延迟进行比较,通过标准差计算相应偏离;
?IO粒度:当一个IO在本OSD对应介质中处理超过一定时间的 。
这种立体的判断方法,使得系统识别慢盘的准确度和速度都大幅提高 。
新版本也进一步完善了慢盘的处理流程,采用告警-隔离-重试,逐步递进:
?告警:上述检测机制发现的所有磁盘亚健康情况都会发送对应告警到界面,提示用户检查;
?隔离:当且仅当出现IO粒度慢盘和坏盘时,系统会指定守护进程(OSD)自动退出;
?重试:当且仅当出现IO粒度慢盘和坏盘情况OSD主动退出时,系统会根据对应的错误情况来连续尝试拉起一定次数来,如继续异常则不再拉起该OSD 。 重试过程中由于OSD已经隔离退出,因此不会影响在线IO 。
3、网络亚健康检测
分布式系统,网络的稳定性对系统的性能影响非常大 。 XSKYSDS新版本可以自动识别集群网络故障,发送告警信息,协助管理员快速排查网络问题 。
实现原理如下:
?系统所有守护进程通过分布式网络延迟检测算法,实时判断不同节点的网络延迟和副本之间数据复制的网络延迟来获得当前系统内所有节点的实时网络情况;
?计算出系统所有节点中1min,5min,15min内的网络延迟的平均值作为评判基线;
?遍历系统所有节点的1min,5min,15min的网络延迟数据,通过标准差计算分析偏离指数,当指数超过阈值时则认为网络有问题 。
