千亿级数据防丢指南:存储系统的可靠性保障实践( 四 )

  • 数据损坏:自适应Data-scrubbing
  • 恶意窃?。篗FA-Delete特性
  • 人为失误:运维自动化率进一步提升、遵循POLP
  • 硬件故障:进一步提升故障预测+故障检测+故障修复能力,进一步设计纠删码方案使得可靠性+成本兼顾
  • Q&A
    Q1:您觉得提升可靠性的工作中,近期哪一部分改进的影响最大?
    A1:近期我们建立了可靠性模型,为什么要建模?因为我们目前在进行纠删码的相关优化,如果纠删码的冗余度偏低,就无法保证可靠性,所以我们建立了一套模型去评估 。
    当然这个模型本身的量级不一定能达到11个9 , 但相对于线上这套系统,它可以看出好还是坏 。建立这个模型,方便我们后续算法优化时进行参考 。如果你的算法比较极端 , 比如下降的量级比较大,可能就要推翻算法,重新设计 。

    【千亿级数据防丢指南:存储系统的可靠性保障实践】


    推荐阅读