Hadoop学习三十八：MapReduce job.setNumReduceTasks(0)思考

zy19982004

浏览: 654390 次
性别:
来自: 深圳

最近访客更多访客>>

apex53

h416373073

lyvslu

gaoming1990

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hadoop学习
浏览量：249893

文章分类

社区版块

存档分类

博客分类：

Hadoop

一.概述

在http://zy19982004.iteye.com/blog/2037549的最后曾经提到过，这里再详细探讨一下。

二.job.setNumReduceTasks(0)唯一影响的是map结果的输出方式

当job.setNumReduceTasks(0)时，即没有reduce阶段，此时唯一影响的就是map结果的输出方式

如果有reduce阶段，map的结果被flush到硬盘，作为reduce的输入；reduce的结果将被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。
如果没有reduce阶段，map的结果将直接被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。

而OutputFormat可以是普通的FileOutputFormat等，也可以是一个空的OutputFormat如NullOutputFormat。

所以有无reduce和OutputFormat的多样性将组合出现以下情形（这个组合其实没什么意义，只是为了更加清楚而已）

有reduce

reduce的结果不需要输出到文件，如reduce里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
reduce的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。

无reduce

map的结果需要不输出到文件，如map里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
map的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。

三.总结

有无reduce决定map结果的输出方式。有reduce时reduce的结果作为整个程序的输出；无reduce时，map的结果作为整个程序的输出。如果能在map阶段解决的问题尽量不要丢给直接输出的reduce如IdentityReducer。

如NullOutputFormat层面上OutputFormat的不需要指定OutputPath；其他如FileOutputFormat需要指定，不然

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not set.
	at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:138)

1
顶

0
踩

分享到：

Hadoop学习三十九：HBase与MapReduce集成 | Hadoop学习三十七：HBase比较负数

2014-05-19 11:01
浏览 13450
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习三十八：MapReduce job.setNumReduceTasks(0)思考

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习三十八：MapReduce job.setNumReduceTasks(0)思考

评论

发表评论

相关推荐

Hadoop学习四十四：某项目技术小结概述

Hadoop学习四十三：MapReduce的二次排序

Hadoop学习四十二：HBase 过滤器

Hadoop学习四十一：HBase基础

Hadoop学习四十：Phoenix二级索引浅谈

Hadoop学习三十九：HBase与MapReduce集成

Hadoop学习三十六：使用BulkLoad时Bulk load operation did not find any files

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

Hadoop学习三十三：Hadoop-HBase Bulk Load使用翻译

Hadoop学习三十二：Win7下无法提交MapReduce Job到集群环境

Hadoop学习三十一：Win7下HBase与MapReduce集成时XXX.jar is not a valid DFS filename

Hadoop学习三十：Win7 Eclipse调试Centos Hadoop2.2-Mapreduce

Hadoop学习二十九：Hadoop-hdfs NameNode源码 成员变量

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码 成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关 源码

Hadoop学习二十六：Hadoop-Hdfs Lease源码

Hadoop学习二十五：Hadoop-Hdfs FSImage源码

Hadoop学习二十四：Hadoop-Hdfs FSEditLog 源码

Hadoop学习二十三：Hadoop-Hdfs FSDirectory 源码

最近访客更多访客>>

Hadoop学习二十九：Hadoop-hdfs NameNode源码成员变量

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关源码