`
zy19982004
  • 浏览: 653912 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
F6f66edc-1c1a-3859-b76b-a22e740b7aa7
Hadoop学习
浏览量:249728
社区版块
存档分类
最新评论
文章列表
一.对源代码的改造  改造MultipleInputs:能够做到HBase文件或者HDFS文件的混合输入 改造JobControl和ControlledJob:能够做到一个Job运行完后,先执行扩展类,再运行下一个Job  改造HFileOutputFormat和PutSortReducer:有一种业务场景是新来的一批数据里包含了少量要删除的数据。改造后配合Mapper对这些删除数据的标记,PutSortReducer能发现这些数据,HFileOutputFormat将这些数据记录到某个文件(不生成HFile) 改造hadoop_datajoin-2.3.0.jar:使用Partit ...
  一.概述      关于二次排序的文章,网上很多,比喻http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html就写的不错。在此文基础上补充几点。    二.job.setPartitionerClass在什么地方被用到      mapper里每一次write,都会调用到 collector.collect(key, value,partitioner.getPartition(key, value, partitions));注partitions = jobContext.getNumReduceTas ...
一.概述 客户端创建包含过滤器Filter的Scan。 Scan通过RPC被发送给RegionServer,在服务器端执行过滤操作。 Scan的作用域是region,所以一个RegionServer有多个region的话,Scan将被发送到每个region。   二.Filter工作流程        你 ...
一.概述       再次学习HBase实战和HBase权威指南时,对HBase了解又深了许多。本文列出一些值得关注的点。   二.HBase物理和逻辑存储结构            user表包含两个列族info activity,为此表预分区[1,3) [3,正无穷),此时us ...
一.概述 Hadoop2.2.0   Hbase0.96.1.1  Phoenix-2.2.0-SNAPSHOT Phoenix官网上提供了三个与Hbase兼容的版本,分别为Phoenix2.X-Hbase0.94.X ,Phoenix3.X-Hbase0.94.X,Phoenix4.X-Hbase0.98.1+,没有与Hbase0.96兼容的版本。幸运的是git上有Phoenix Hbase0.96的分支,参考https://github.com/forcedotcom/phoenix/tree/port-0.96。于是我自己编译成了Phoenix-2.2.0-SNAPSHOT 。 ...
一.概述      HBase与MapReduce集成时,有以下三种情形 HBase作为数据流向。 HBase作为数据源。 HBase作为数据源和数据流向。      阅读本文前,最好先了解http://zy19982004.iteye.com/blog/2068112       二.HBase作为数据流向       HBase作为数据流向时,如从Hdfs里向HBase里导入数据,可以有下列方式 map里直接调用HBase Api,往HBase插入数据。此时job.setNumReduceTasks(0),并且job.setOutputFormatClass(Nu ...
一.概述       在http://zy19982004.iteye.com/blog/2037549的最后曾经提到过,这里再详细探讨一下。   二.job.setNumReduceTasks(0)唯一影响的是map结果的输出方式       当job.setNumReduceTasks(0)时,即没有reduce阶段,此时唯一影响的就是map ...
一.HBase存储      HBase存储的都是字节码。我们也知道,计算机系统里,数值一律采用补码来表示和存储(http://zy19982004.iteye.com/blog/1706138)。      那么Integer(-1)在HBase里将被存储为\xFF\xFF\xFF\xFF,Integer(1)在Hbase里将被存储为\x00\x00\x00\x01。      再来看看在比较大小时的PureJavaComparer.compareTo,会将字节码,通过&0xff,转换成一个无符号位的正数。此时将出现\xFF\xFF\xFF\xFF & 0xff = ...
一.错误      使用BulkLoad向Hbase导入数据时出现了错误 2014-04-04 15:39:08,521 WARN org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles - Bulk load operation did not find any files to load in directory hdfs://192.168.1.200:9000/user/root/output1. Does it contain files in subdirectories that correspond to col ...
一.上文       http://zy19982004.iteye.com/blog/2037549从整体上描述了Job执行的过程,大致分为三步 准备数据 map reduce 清理      其中最主要的当然是map reduce的过程,map由MapTask主导完成,reduce由ReduceTask主导完成。先看看官方给的一个图   二.MapTask       MapTask分为以下几步 Read:从InputSplit中读取数据,解析出一个个key/value。 Map:由自定义的Mapper类处理上述key/value。处理结果也是key/value ...
一. 版本环境      以前工作的过程中,陆陆续续看过一些Hadoop1.0 MapReduce的源码,但没有形成体系。现在再次来看,顺便记录。此次学习版本的是Hadoop2.2.0 MapReduce。环境为直接在Win7下Local模式调试。MapReduce。   二. Job提交流程      从Job waitForCompletion开始 1 Job submit 1.1 JobSubmitter submitJobInternal 1.1.1 JobSubmissionFiles.getStagingDir 初始化Job系统工作目录jobStagingArea。 ...
一. 地址      http://hbase.apache.org/book.html#arch.bulk.load       写道 9.8. Bulk Loading 9.8.1. Overview HBase includes several methods of loading data into tables. The most straightforward method is to either use the TableOutputFormat class from a MapReduce job, or use the normal client APIs; ho ...
一. 对hadoop eclipse plugin认识不足       http://zy19982004.iteye.com/blog/2024467曾经说到我最hadoop eclipse plugin作用的认识。但事实上我犯了一个错误,Win7 Eclipse里的MyWordCount程序一直在本地运行,没有提交到集群环境上运行(查看192.168.1.200:50030)没有这个Job。运行方式分为两种,右键Run As Java Application Run on Hadoop      如果说Run As Java Application在本地运行还好说,它直接使 ...
一. 代码      Hbase In Action(HBase实战)和Hbase:The Definitive Guide(HBase权威指南)两本书中,有很多入门级的代码,可以选择自己感兴趣的check out。地址分别为https://github.com/HBaseinaction https://github.com/larsgeorge/hbase-book。 在Win7下运行Hbase与MapReduce集成章节的代码时,出现了错误。比喻这个代码https://github.com/larsgeorge/hbase-book/blob/master/ch07/src/ma ...
  一. 自己搭建开发环境      今天自己搭建了一套Centos5.3 + Hadoop2.2 + Hbase0.96.1.1的开发环境,Win7 Eclipse调试MapReduce成功。可能是版本比较高的原因,出了问题,网上找不到完整解决方案,只能靠自己。   二. Hadoop安装      这个就不啰嗦了,网上大把文章。我下载的是hadoop-2.2.0.tar.gz。 http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 很详细的介绍了Hadoop Hdfs的安装。它这个不是Hadoop2 ...
Global site tag (gtag.js) - Google Analytics