一文彻底了解Hadoop的来龙去脉( 五 ) _Hadoop

然后我们创建一个WordCount类。
在这个类里，首先我们要创建一个Map方法，需要继承MApper类：
public static class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable> { private final IntWritable one = new IntWritable(1); private Text word = new Text();public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer token = new StringTokenizer(line); while (token.hasMoreTokens()) { word.set(token.nextToken()); context.write(word, one); } }}Mapper<LongWritable, Text, Text, IntWritable>是什么意思呢？
前面两个类参数是输入，后面两个是输出。
也就是WordCOuntMap方法接收LongWritable，Text的参数，返回<Text，IntWriatable>键值对。
需要重写map方法，可以看到Context对象即为返回结果，内部其实是<Text，IntWriatable>键值对。
这里需要注意的是，value的值，value默认是一行数据，你文件中有多少行，map函数就会被调用多少次。
这我们就看懂了吧，首先拿到一行的数据，使用StringTokenizer根据空格分割字符串，得到token 。遍历token并写入context中返回即可。
然后我们需要编写reduce方法：同样的，reduce方法继承reduce类。
public static class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); }}wordCountReduce方法接收<Text, IntWritable>键值对，将键值对组合起来，结果写入另外一个键值对中，返回即可。
其中最重要是重写reduce方法，同样的context也是返回的结果。
这里需要注意的是，reduce方法是什么时候调用的呢？是在所有mapTask都被执行完成之后，reduceTask启动了才调用。
所有reduce方法中接收到的是所有map返回的参数。所以我们简单的求和写入context中就可以了。
最后我们编写main方法作为入口，调用两个函数。
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(WordCount.class);
job.setJobName("wordcount");
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(WordCountMap.class);
job.setReducerClass(WordCountReduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.waitForCompletion(true);
}
这里我们主要是告诉JobTracker，告诉他去调用什么就可以了。
类都编写好了之后`，我们需要的是jar包，所以我们将程序打包为jar包。
拿到jar包之后，我们需要将jar包作为作业提交给Hadoop执行。怎么做呢？
hadoop jar WordCount.jar WordCount input_wordcount output_wordcount
hadoop jar WordCount.jar WordCount这里提交jar包，并且告诉主类在哪。
后面两个都是我们自定义的参数了。会在main中获取到，即输入参数为input_wordcount 。输出参数为output_wordcount
执行完成之后可以看到。
hdfs dfs -ls
Found 2 items
drwxr-xr-x - haoye supergroup 0 2017-05-06 20:34 input_wordcount
drwxr-xr-x - haoye supergroup 0 2017-05-06 20:40 output_wordcount
hdfs dfs -ls output_wordcount
Found 2 items
-rw-r--r-- 3 haoye supergroup 0 2017-05-06 20:40 output_wordcount/_SUCCESS
-rw-r--r-- 3 haoye supergroup 83 2017-05-06 20:40 output_wordcount/part-r-00000
其中part-r-00000为结果文件。
我们可以查看它的内容
hdfs dfs -cat output_wordcount/part-r-00000
api 1
file 3
free 2
hadoop 7
hello 3
home 1
java 2
new 2
school 1
system 1
world 2
得到结果了吧。
对于hadoop来说，执行任务需要操作HDFS，需要job对应的jar包。而jar包中需要编写mapTask和ReduceTask对应的方法。交给jobTracker执行就可以了。十分的方便。

一文彻底了解Hadoop的来龙去脉( 五 )

推荐阅读

大众报业·海报新闻|财鑫闻丨万亿成交量重现，“牛市旗手”集体飘红！机构：关注两条主线

新华网|我国成功为法国可控热核聚变大科学装置研制核心部件

温情|《乔乔的异想世界》暖心治愈，用温情揭露残酷战争

「鱼头」鱼头怎么做？大叔教你酱烧鱼头，酱香浓郁，鲜香味美，超好吃！

四川法制网|峨眉市场监管局迅速排查，聚焦“3·15”晚会曝光黑心毛巾问题

曹作兰艺术行走|街拍：浴室拖鞋美女，穿出“不装”之美

读职场|如今可能要提前了, 美国已“焦头烂额”，10年后中国GDP将超越美国?

福全和康熙的关系如何,康熙和福全

黑猫的厨房TB看完太酸了，网友：分餐合理，值得参考，80后日本妈妈分享早餐

@别傻了，这几个紫砂壶造型，在如今的紫砂市场基本买不到全手工！

唐玄宗和杨贵妃的故事杨玉环的故事

护田和排闼的典故是怎样的？

松鼠热点|警方3天后擒获嫌犯，电瓶接连被盗

十二星座大宝典思念任未断，旧情势在复合的星座，5天后

历史每日揭秘|谁注意身后的张含韵在干嘛？也太随心所欲了，孟佳辅助团队舞蹈时

吉利|连当4年国产车销冠！吉利汽车5月销量出炉：同比环比双降

818天威耗材品牌盛典，大咖论道齐聚珠海

鲁能|新华社点名马宁，京鲁大战争议终于有权威声音，足协会有何回应？

爱牙说想要预防和治疗孩子牙齿不齐？这些方法家长不容错过

丁香茶多少钱斤,苦荞茶多少钱斤