彩色科技膜拜!华为内部都在强推的783页大数据处理系统:源代码pdf
前言
大数据处理系统:Hadoop源代码情景分析 , 采用的是Hadoop2.6 。 如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎么实现的 。
然后,在最后一章,再看看Spark又是什么样的,有些什么改进 。 你将看到,在一个计算机集群上构筑一个大数据处理系统,哪些成分是必不可少的,哪些方面又是可以改进的,它与操作系统的关系怎样,而作为大规模计算机集群的“操作系统”又可以和应该是什么样的 。
不过也尽力把它写成让非计算机专业的读者也能读懂,当然他们的困难会多一些,但也绝非无法理解 。 正因如此,本文叙述也许显得过于通俗直白,有时候可能还有点啰嗦 。
本文插图
学习目录
本文插图
主要内容
全文总共分为20章的内容 , 因为内容比较多 , 所以接下来我就给大家做个粗略的介绍 , 每一节都有更加细化的内容!
第1章大数据与Hadoop ,
本文插图
第2章研究方法 , 我们的目的是要研究 Hadoop的源代码,而研究必须有研究方法 。 这里所说的研究方法是指如何阅读、分析、理解各种计算机程序源代码的方法和手段 。 实际上对此并没有一种标准的或者公认的方法,各人所用的方法和手段可能都不一样,这里只是把我所用的方法介绍给读者,以期抛砖引玉
本文插图
第3章Hadoop集群和YARN , 虽然 Hadoop也可以在单机上运行,但是这个平台的典型运行场景无疑是在多机的集群(Cluster)上 。 我们把运行着 Hadoop平台的集群,就Hadoop平台的边界所及,称为“Hadoop集群” 。 其中的每台机器都成为集群的一个“节点(node)”,节点之间连成一个局域网 。 这个局域网一般都是交换网,而不是路由网 。 这就是说,集群中只有交换机(switch),一般是二层交换机,也可能是三层交换机,但是没有普通的路由器,因为那些路由器引入的延迟太大了 。 不过这也不绝对,有时候可能确实需要将一个集群分处在不同网段中,而通过路由器相连,但是这并不影响 Hadoop的运行(除性能降低之外) 。 就 Hadoop而言,路由器与交换机在逻辑上是一样的 。
本文插图
第4章Hadoop的RPC机制 , RPC是“RemoteProcedureCall”即“远地过程调用”的缩写 。 这个机制的目的,是让一台机器上的程序能像调用本地的“过程”那样来调用别的机器上的某些过程 。 这里所谓“过程”,在传统的 C程序设计中统称为“函数”,在 Pascal程序设计中既可以是 PROCEDURE 也可以是 FUNCTION,在Java等 OO 程序设计语言中就是 “方 法 (method)” 。 所 以,Java传 统 的RPC机制称为 RMI,即“远地方法启用(RemoteMethodInvocation)” 。
本文插图
第5章Hadoop作业的提交 , 在计算机上启动运行一个应用,首先要把这个应用作为“作业(Job)”提交给计算机系统 。
一般这是通过键入一个命令行或点击某个图标而实现的,操作很简单 。 但是,如果我们要考察在提交作业时系统内部的流程,那就比较复杂了 。 学过操作系统的人对单机上的作业提交过程会有比较深入的了解,不过那不是本书所要关注的问题 。 本书所关注的是,在通常运行于计算机集群的 Hadoop系统上,作业是怎样提交的 。
推荐阅读
- 科技日报|塑料微粒影响几何?人类认知仍不足
- 七号人称说科技|华为始料未及?台积电又成了“炮灰”?新风暴说来就来
- 大众新闻|众安科技荣获“今日·保险中介榜”年度Insurtech独角兽
- 雷科技|朋友圈都在秀的“互联网勋章”到底是什么?
- 快科技|小米10至尊纪念版妙享功能升级:手机与Windows电脑合体
- 七号人称说科技|再给华为一颗糖?美国到底在打什么“算盘”?,先给华为一巴掌
- 量子科技,爆发!有项关键技术中国已领先世界
- 暖日科技盈如|这到底是为什么?,俄罗斯华人给出劝告:最好别跟俄罗斯女孩结婚
- 周到|民警利用无人机指挥事故车辆立即撤离 “科技赋能”破解交通管理难题
- 概念股|中国股市:量子科技概念股一览 (名单)
