Hadoop学习三十九：HBase与MapReduce集成

zy19982004

浏览: 654269 次
性别:
来自: 深圳

最近访客更多访客>>

apex53

h416373073

lyvslu

gaoming1990

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hadoop学习
浏览量：249841

文章分类

社区版块

存档分类

博客分类：

Hadoop

一.概述

HBase与MapReduce集成时，有以下三种情形

HBase作为数据流向。
HBase作为数据源。
HBase作为数据源和数据流向。

阅读本文前，最好先了解http://zy19982004.iteye.com/blog/2068112

二.HBase作为数据流向

HBase作为数据流向时，如从Hdfs里向HBase里导入数据，可以有下列方式

map里直接调用HBase Api，往HBase插入数据。此时job.setNumReduceTasks(0)，并且job.setOutputFormatClass(NullOutputFormat.class)
使用TableOutputFormat，TableOutputFormat的RecordWriter会直接往HBase写数据。

可以在map阶段就写入。此时job.setNumReduceTasks(0)。
也可以有reduce来写入如IdentityTableReducer。

使用BulkLoad，HFileOutputFormat.configureIncrementalLoad(job, htable); 的背后job.setOutputFormatClass(HFileOutputFormat.class);

三.HBase作为数据源

HBase作为数据源，如分析HBase里的数据

自定义mapper继承TableMapper，实际以Result作为数据源，map和reduce阶段按业务逻辑来即可。

四.HBase作为数据源和数据流向

HBase作为数据源和数据流向，如将一个HBase表拆分为两个HBase表。mapper继承TableMapper，main方法里TableMapReduceUtil.initTableMapperJob后至少可以以下三种方式处理

map阶段处理好数据，调用HBase Api插入到新HBase表。此时job.setNumReduceTasks(0)，并且job.setOutputFormatClass(NullOutputFormat.class)。
map阶段处理好数据，由TableOutputFormat写入到Hbase。

可以在map阶段就写入。此时job.setNumReduceTasks(0)。
也可以有reduce来写入如IdentityTableReducer。此时需要TableMapReduceUtil.initTableReducerJob。

五.源代码

http://platform-components.googlecode.com/svn/trunk/SourceCode/study-hadoop/src/main/java/com/jyz/study/hadoop/hbase/mapreduce/ 目录下的几个java代码可以很好的说明上述任一情况。

3
顶

0
踩

分享到：

Hadoop学习四十：Phoenix二级索引浅谈 | Hadoop学习三十八：MapReduce job.setNumRe ...

2014-05-19 14:09
浏览 10784
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习三十九：HBase与MapReduce集成

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习三十九：HBase与MapReduce集成

评论

发表评论

相关推荐

Hadoop学习四十四：某项目技术小结概述

Hadoop学习四十三：MapReduce的二次排序

Hadoop学习四十二：HBase 过滤器

Hadoop学习四十一：HBase基础

Hadoop学习四十：Phoenix二级索引浅谈

Hadoop学习三十八：MapReduce job.setNumReduceTasks(0)思考

Hadoop学习三十六：使用BulkLoad时Bulk load operation did not find any files

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

Hadoop学习三十三：Hadoop-HBase Bulk Load使用翻译

Hadoop学习三十二：Win7下无法提交MapReduce Job到集群环境

Hadoop学习三十一：Win7下HBase与MapReduce集成时XXX.jar is not a valid DFS filename

Hadoop学习三十：Win7 Eclipse调试Centos Hadoop2.2-Mapreduce

Hadoop学习二十九：Hadoop-hdfs NameNode源码 成员变量

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码 成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关 源码

Hadoop学习二十六：Hadoop-Hdfs Lease源码

Hadoop学习二十五：Hadoop-Hdfs FSImage源码

Hadoop学习二十四：Hadoop-Hdfs FSEditLog 源码

Hadoop学习二十三：Hadoop-Hdfs FSDirectory 源码

最近访客更多访客>>

Hadoop学习二十九：Hadoop-hdfs NameNode源码成员变量

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关源码