Hadoop@大数据开发专家(40K以上)必须掌握技能!( 二 )
- HDFS:Hadoop 分布式文件系统 , 它是Hadoop 的核心子项目 。
- MapReduce :Hadoop 中的 MapReduce 是一个使用简单的软件框架 , 基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上 , 并能可靠容错地并行处理 TB 级别的数据集 。
- Hive :是建立在 Hadoop 体系架构上的一层 SQL抽象 , 使得数据相关人员使用他们最为熟悉的 SQL 语言就可以进行海量数据的处理、分析和统计工作 , 而不是必须掌握 Java 等编程语言和具备开发MapReduce 程序的能力 。 HiveSQL 际上先被 SQL 解析器进行解析然后被 Hive 框架解析成一个MapReduce 可执行计划 , 并按照该计划生成 MapReduce 任务后交给 Hadoop 集群处理 。
- 文件系统
但是当文件所需空间大于本机磁盘空间时 , 应该如何处理呢?
加磁盘 , 但是加到一定程度就有限制了 。
加机器 , 即用远程共享目录的方式提供网络化的存储 , 这种方式可以理解为分布式文件系统的雏形 , 它可以把不同文件放入不同的机器中 , 而且空间不足时可继续加机器 , 突破了存储空间的限制 。
- 传统的分布式文件系统---架构
本文插图
- 传统的分布式文件系统---访问过程
本文插图
- 传统的分布式文件系统带来的问题
数据可靠性低 。 如果某个文件所在的机器出现故障 , 那么这个文件就不能访问了 , 甚至会造成数据的丢失 。
文件管理困难 。 如果想把一些文件的存储位置进行调整 , 就需要查看目标机器的空间是否够用 , 并且需要管理员维护文件位置 , 在机器非常多的情况下 , 这种操作就极为复杂 。
- HDFS 的基本原理
本文插图
本文插图
本文插图
- HDFS 的体系结构(一主多从)
本文插图
- HDFS 的文件读取
本文插图
- HDFS 的文件写入
本文插图
- HDFS 异常处理之NameNode
FsImage文件:
推荐阅读
- []重庆移动-亚德高等级数据中心落户西永微电园
- 平台■在线视频平台大数据杀熟成惯例 买VIP就活该被宰?
- 「数据线」手机充电慢?那你需要看看是不是这些地方出了问题
- 大数据:这套绝对是2020年大数据最全面的线路图+实战项目+源码限时赠你
- 『手机技巧超人』手机开发者选项居然这么神奇!手机用了这些年,你不会还不知吧?
- 【Ace】原创 用实际数据发声,OPPO Ace2的这些亮点你要知道
- #颜七公子#TunesKit iPhone Data Recovery for Mac(iPhone数据恢复工具)
- 邓锄头挖科技■关于IDC数据中心的“容量管理”的目标和3种子业务场景
- 技术@为楼宇安上“智慧大脑”,翠苑街道开创“一平台”数据互通模式
- 「北京」这家环保大数据企业为北京抗“疫”装上千里眼
