一.对源代码的改造
- 改造MultipleInputs:能够做到HBase文件或者HDFS文件的混合输入
- 改造JobControl和ControlledJob:能够做到一个Job运行完后,先执行扩展类,再运行下一个Job
- 改造HFileOutputFormat和PutSortReducer:有一种业务场景是新来的一批数据里包含了少量要删除的数据。改造后配合Mapper对这些删除数据的标记,PutSortReducer能发现这些数据,HFileOutputFormat将这些数据记录到某个文件(不生成HFile)
- 改造hadoop_datajoin-2.3.0.jar:使用PartitionerClass SortComparatorClass GroupingComparatorClass技术手段,去掉maxNumOfValuesPerGroup = 100的限制,实现迭代一组Value就实现关联。
- 改造RunJar:在一个没有安装Hadoop集群环境上提交作业,自己实现一个JarRunner类,做到和使用集群hadoop jar命令一样的效果。
二.使用到的工具类
- Distcp:集群间HDFS文件拷贝。定制化InputFormat TextOutputFormat;无Reducer。
- Snapshot:HBase克隆快照。
- Export Import:集群间HBase拷贝。
Export的话使用IdentityTableMapper将Result直接输出,使用SequenceFileOutputFormat将对象序列化到指定文件。
Import的话使用SequenceFileInputFormat从指定文件读取数据;1.Mapper里将Result对象转换成Mutation对象并输出,TableOutputFormat接受到后直接写到HBase;无Reducer。2.或者是另外种借助HFileOutputFormat的处理,下篇再详说。 - CopyTable:一个集群里将一个表copy成另外一个表 。Mapper里将Result对象转换成Mutation对象并输出,TableOutputFormat接受到后直接写到HBase;无Reducer。
接下来有时间抽取其中几点,详细说下。
相关推荐
hadoop权威指南代码 (Hadoop: The Definitive Guide code) http://www.hadoopbook.com
Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结
Hadoop学习总结之四:Map-Reduce的过程解析
Hadoop学习总结之五:Hadoop的运行痕迹
NULL 博文链接:https://zy19982004.iteye.com/blog/2088173
Hadoop学习总结之一:HDFS简介
北京某培训机构内部培训资料,学习大数据的同学抓紧下载,我会同步更新上传~
Hadoop学习资料总结,值得推荐阅读学习 很好 非常好 值得拥有
Hadoop学习总结之二:HDFS读写过程解析
Hadoop技术-Hadoop概述.pptx
大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz
1、 hadoop官方网站,首页会...2、 Nutch ->谷歌GFS论文->doug 根据GFS设计了NDFS、06年启动hadoop项目。 3、 环境支持 操作系统 Linux 、WINDOWS-Cygwin、hadoop-for-windows JDK支持 下载jdk,解压jdk,配置环境变量
Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)...
实验1:Hadoop 安装与配置管理 4 1.1【实验目的】 4 1.2【实验环境】 4 1.3【实验过程】 4 Step1:基础设施. 5 Step2:各服务器安装JDK 7 Step3:各服务器的网络设置 8 Step4:在namenode安装Hadoop 9 Step5:修改Hadoop...
hadoop学习整理的文档
Hadoop 学习笔记.md
赠送jar包:hadoop-auth-2.6.5.jar 赠送原API文档:hadoop-auth-2.6.5-javadoc.jar 赠送源代码:hadoop-auth-2.6.5-sources.jar 包含翻译后的API文档:hadoop-auth-2.6.5-javadoc-API文档-中文(简体)-英语-对照版...
hadoop2.7汇总:新增功能最新编译64位安装、源码包、API、eclipse插件下载
有计划的安排大数据的学习之路,可以在对Hadoop的学习规划上有一个更清晰的目标!