大数据&云计算|多图干货 | 分布式文件系统设计,该从哪些方面考虑?( 六 )
文件指纹和去重
文件指纹就是根据文件内容 , 经过算法 , 计算出文件的唯一标识 。 如果两个文件的指纹相同 , 则文件内容相同 。 在使用网络云盘的时候 , 发现有时候上传文件非常地快 , 就是文件指纹发挥作用 。 云盘服务商通过判断该文件的指纹 , 发现之前已经有人上传过了 , 则不需要真的上传该文件 , 只要增加一个引用即可 。 在文件系统中 , 通过文件指纹可以用来去重、也可以用来判断文件内容是否损坏、或者对比文件副本内容是否一致 , 是一个基础组件 。
文件指纹的算法也比较多 , 有熟悉的 md5、sha256、也有 google 专门针对文本领域的 simhash 和 minhash 等 。
十一、总结
【大数据&云计算|多图干货 | 分布式文件系统设计,该从哪些方面考虑?】
分布式文件系统内容庞杂 , 要考虑的问题远不止上面所说的这些 , 其具体实现也更为复杂 。 本文只是尽量从分布式文件系统所要考虑的问题出发 , 给予一个简要的分析和设计 , 如果将来遇到类似的场景需要解决 , 可以想到“有这种解决方案” , 然后再来深入研究 。
同时 , 市面上也是存在多种分布式文件系统的形态 , 下面就是有研究小组曾经对常见的几种分布式文件系统的设计比较 。
几种分布式文件系统的比较
本文插图
从这里也可以看到 , 选择其实很多 , 并不是 GFS 论文中的方式就是最好的 。 在不同的业务场景中 , 也可以有更多的选择策略 。
作者介绍
张轲 , 目前任职于杭州大树网络技术有限公司 , 担任首席架构师 , 负责系统整体业务架构以及基础架构 , 转载请联系作者 。
之前 , 给大家发过三份Java面试宝典 , 这次新增了一份 , 目前总共是四份面试宝典 , 相信在跳槽前一个月按照面试宝典准备准备 , 基本没大问题 。
声明:转载此文是出于传递更多信息之目的 。 若有来源标注错误或侵犯了您的合法权益 , 请作者持权属证明与本网联系 , 我们将及时更正、删除 , 谢谢 。邮箱地址:newmedia@xxcb.cn
推荐阅读
- 智能穿戴|漫步者DreamPods体验:外观精致佩戴舒适降噪是最大惊喜
- 数据|智领云荣登“中国大数据企业50强” | 2020大数据产业生态大会盛大召开
- 大数据|华云数据荣获中国大数据50强、2020数字赋能先锋企业30强,入选大数据产业发展白皮书及百佳案例
- 驱动中国|即信Fintech智研中心:银行践行社交化运营的要诀--渠道通 交互通 数据通
- 行业互联网|华云数据荣获中国大数据50强、2020数字赋能先锋企业30强,入选大数据产业发展白皮书及百佳案例
- 技术编程|数据结构001之简介
- 行业互联网|爱数亮相第八届医药健康论坛,以数据赋能药企数字化
- 技术编程|边缘云计算到底是什么?
- 行业互联网|智领云荣登“中国大数据企业50强”| 大数据产业生态大会
- 互联网|图匠数据CTO梁柱锦:利用AI与大数据提升线下零售管理能力 | 公开课预告
