彩色科技膜拜!华为内部都在强推的783页大数据处理系统:源代码pdf( 二 )
本文插图
第6章作业的调度与指派 ,
本文插图
第7章NodeManager与任务投运 , 用户提交的作业为 ResourceManager接受并得到调度运行之后,RM会设法将其投入运行 。 但是一 个 作 业 (Job 或 App)通常都包含着很多任务,比方说N个MapTask和1个ReduceTask,所以作业的投运终究会分解成许多任务的投运 。
本文插图
第8章MRAppMaster与作业投运 ,
本文插图
第9章YARN子系统的计算框架 , Hadoop中 YARN 子系统的使命是为用户提供大数据的计算框架 。 早期的 Hadoop,甚至早期的 YARN 都只提供一种计算框架,那就是 MapReduce 。 如前所述,MapReduce是一种极简的,然而在很多情况下颇为有效的计算模型和框架 。
但是Hadoop的MapReduce框架要求使用者提供用Java语言编写的 Mapper和 Reducer,而 App本身则虽然简单但也要求用Java编写,这又使有些用户感到有点不便,而且 MapReduce这个模式也过于简单和单调 。 所以 Hadoop后来有了一些新的发展,除 MapReduce外又提供了称为Chain和Stream的计算框架 。 一来使用户不必非得用Java编程;二来更允许用户利用 Linux上的 Utility工具软件搭建更像“数据流”的结构 。 本章介绍 YARN 子系统为用户提供的计算框架,当然主要还是传统的 MapReduce框架 。
本文插图
第10章MapReduce框架中的数据流
本文插图
第11章Hadoop的文件系统HDFS
本文插图
【彩色科技膜拜!华为内部都在强推的783页大数据处理系统:源代码pdf】
第12章HDFS的DataNode
本文插图
第13章DataNode与NameNode的互动 , 数据节点DataNode在运行中会与三种对端有互动 。
第一种是NameNode,如前所述,对于数据块的存储地点,虽然最初是由NameNode分配和指定的,但相关的信息最终来自DataNode的报告 。
第二种是用户的App(包括Shell),用户的App可以存在于集群内的任何节点上,不过那是在独立的JVM上,即使与DataNode同在-一个节点上也互相独立;然而真正把数据存储在DataNode上或从DataNode读取数据的却是App(或Shell) 。
第三种是集群中别的DataNode,就是说DataNode与DataNode之间也会有通信和互动,这主要来自数据块复份replica的传输和转储 。
数据块在HDFS文件系统中的存储是“狡兔三窟”的,一个数据块要分别存储在若干不同的DataNode.上,但是系统并不要求App把--个数据块分别发送给几个DataNode,而只需发送给其中的一个,后面就是DataNode之间的事了 。
本文插图
第14章DataNode间的互动
本文插图
第15章HDFS的文件访问
推荐阅读
- 科技日报|塑料微粒影响几何?人类认知仍不足
- 七号人称说科技|华为始料未及?台积电又成了“炮灰”?新风暴说来就来
- 大众新闻|众安科技荣获“今日·保险中介榜”年度Insurtech独角兽
- 雷科技|朋友圈都在秀的“互联网勋章”到底是什么?
- 快科技|小米10至尊纪念版妙享功能升级:手机与Windows电脑合体
- 七号人称说科技|再给华为一颗糖?美国到底在打什么“算盘”?,先给华为一巴掌
- 量子科技,爆发!有项关键技术中国已领先世界
- 暖日科技盈如|这到底是为什么?,俄罗斯华人给出劝告:最好别跟俄罗斯女孩结婚
- 周到|民警利用无人机指挥事故车辆立即撤离 “科技赋能”破解交通管理难题
- 概念股|中国股市:量子科技概念股一览 (名单)
