一.概述
HBase与MapReduce集成时,有以下三种情形
- HBase作为数据流向。
- HBase作为数据源。
- HBase作为数据源和数据流向。
阅读本文前,最好先了解http://zy19982004.iteye.com/blog/2068112
二.HBase作为数据流向
HBase作为数据流向时,如从Hdfs里向HBase里导入数据,可以有下列方式
- map里直接调用HBase Api,往HBase插入数据。此时job.setNumReduceTasks(0),并且job.setOutputFormatClass(NullOutputFormat.class)
- 使用TableOutputFormat,TableOutputFormat的RecordWriter会直接往HBase写数据。
- 可以在map阶段就写入。此时job.setNumReduceTasks(0)。
- 也可以有reduce来写入如IdentityTableReducer。
- 使用BulkLoad,HFileOutputFormat.configureIncrementalLoad(job, htable); 的背后job.setOutputFormatClass(HFileOutputFormat.class);
三.HBase作为数据源
HBase作为数据源,如分析HBase里的数据
自定义mapper继承TableMapper,实际以Result作为数据源,map和reduce阶段按业务逻辑来即可。
四.HBase作为数据源和数据流向
HBase作为数据源和数据流向,如将一个HBase表拆分为两个HBase表。mapper继承TableMapper,main方法里TableMapReduceUtil.initTableMapperJob后至少可以以下三种方式处理
- map阶段处理好数据,调用HBase Api插入到新HBase表。此时job.setNumReduceTasks(0),并且job.setOutputFormatClass(NullOutputFormat.class)。
- map阶段处理好数据,由TableOutputFormat写入到Hbase。
- 可以在map阶段就写入。此时job.setNumReduceTasks(0)。
- 也可以有reduce来写入如IdentityTableReducer。此时需要TableMapReduceUtil.initTableReducerJob。
五.源代码
http://platform-components.googlecode.com/svn/trunk/SourceCode/study-hadoop/src/main/java/com/jyz/study/hadoop/hbase/mapreduce/ 目录下的几个java代码可以很好的说明上述任一情况。
相关推荐
对Hadoop中的HDFS、MapReduce、Hbase系列知识的介绍。如果想初略了解Hadoop 可下载观看
hadoop1.1.2操作例子 包括hbase hive mapreduce相应的jar包
基于hadoop的简单网络爬虫,HBase MapReduce
HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf
Hadoop-0.20.0-HDFS+MapReduce+Hive+HBase十分钟快速入门
hadoop和hbase集成所需jar包。例如使用hbase进行MapReduce。 需要更多资源请关注我。
该文档保护了目前比较流行的大数据平台的原理过程梳理。Hadoop,Hive,Hbase,Spark,MapReduce,Storm
Hadoop 采取了完全不同的方法 GFS分布式文件系统 :hadoop中叫做HDFS MapReduce : hadoop: MapReduce Bigtable 大数据中:Hbase
Hadoop_学习MapReduce,HBase,协处理器的学习与实现
Eclipse工程 HBase MapReduce完整实例 可远程执行 包含HBase增删改查 执行Test可看到效果
上图描述了Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和...
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的...
本书是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是...
文件包括 hadoop1.0.2安装 编译hadoop-eclipse插件 MapReduce开发 hbase0.94安装
英特尔Hadoop发行版开发者指南,主要介绍mapreduce、hbase等源代码的详解。
google三大论文 gfs bigtable mapreduce hadoop hdfs hbase原型,学hadoop 必看
hadoop基础,hdfs,hive,mapreduce,hbase
大数据完整版视频。视频未加密,绝对可以看。
基于Hadoop的mapreduce 在hbase上的使用,基于Hadoop的mapreduce 在hbase上的使用