Hadoop学习四十四：某项目技术小结概述 - zy19982004 - ITeye博客

`

zy19982004

浏览: 654379 次
性别:
来自: 深圳

最近访客更多访客>>

apex53

h416373073

lyvslu

gaoming1990

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: Hadoop学习
浏览量：249886

文章分类

社区版块

存档分类

最新评论

leibnitz：请问,你知道在FSEdigLog#loadFSEdits()时 ...
Hadoop学习二十三：Hadoop-Hdfs FSDirectory 源码
jiaqing_blog：七.等待队列(本是Object里的方法，但影响了线程)noti ...
多线程总结二：线程的状态转换
haaarySun：虽然是三年前的帖子，但还是想回复博主，logger是继承了ca ...
Java日志学习三：Apache Log4j源码浅析
annmi_cai：好好学习，天天向上！
Hadoop学习四：Hadoop-Hdfs NameNode
emotionText：楼主你好！我运行报错SLF4J: Class path con ...
Hadoop学习三十：Win7 Eclipse调试Centos Hadoop2.2-Mapreduce

Hadoop学习四十四：某项目技术小结概述

博客分类：

Hadoop

阅读更多

一.对源代码的改造

改造MultipleInputs：能够做到HBase文件或者HDFS文件的混合输入
改造JobControl和ControlledJob：能够做到一个Job运行完后，先执行扩展类，再运行下一个Job
改造HFileOutputFormat和PutSortReducer：有一种业务场景是新来的一批数据里包含了少量要删除的数据。改造后配合Mapper对这些删除数据的标记，PutSortReducer能发现这些数据，HFileOutputFormat将这些数据记录到某个文件（不生成HFile）
改造hadoop_datajoin-2.3.0.jar：使用PartitionerClass SortComparatorClass GroupingComparatorClass技术手段，去掉maxNumOfValuesPerGroup = 100的限制，实现迭代一组Value就实现关联。
改造RunJar：在一个没有安装Hadoop集群环境上提交作业，自己实现一个JarRunner类，做到和使用集群hadoop jar命令一样的效果。

二.使用到的工具类

Distcp：集群间HDFS文件拷贝。定制化InputFormat TextOutputFormat；无Reducer。
Snapshot：HBase克隆快照。
Export Import：集群间HBase拷贝。
Export的话使用IdentityTableMapper将Result直接输出，使用SequenceFileOutputFormat将对象序列化到指定文件。
Import的话使用SequenceFileInputFormat从指定文件读取数据；1.Mapper里将Result对象转换成Mutation对象并输出，TableOutputFormat接受到后直接写到HBase；无Reducer。2.或者是另外种借助HFileOutputFormat的处理，下篇再详说。
CopyTable：一个集群里将一个表copy成另外一个表。Mapper里将Result对象转换成Mutation对象并输出，TableOutputFormat接受到后直接写到HBase；无Reducer。

接下来有时间抽取其中几点，详细说下。

2
顶

0
踩

分享到：

Hadoop学习四十三：MapReduce的二次排序

2014-12-15 15:49
浏览 4263
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop权威指南代码（Hadoop: The Definitive Guide code）: hadoop权威指南代码（Hadoop: The Definitive Guide code） http://www.hadoopbook.com

Hadoop学习总结.doc: Hadoop学习总结，内容包括： 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结

Hadoop学习总结之四：Map-Reduce过程解析: Hadoop学习总结之四：Map-Reduce的过程解析

Hadoop学习总结之五：Hadoop的运行痕迹: Hadoop学习总结之五：Hadoop的运行痕迹

Hadoop学习四十二：HBase 过滤器: NULL 博文链接：https://zy19982004.iteye.com/blog/2088173

Hadoop学习总结之一：HDFS简介: Hadoop学习总结之一：HDFS简介

hadoop培训教程（一）：概述与安装: 北京某培训机构内部培训资料，学习大数据的同学抓紧下载，我会同步更新上传～

Hadoop学习资料: Hadoop学习资料总结，值得推荐阅读学习很好非常好值得拥有

Hadoop学习总结之二：HDFS读写过程解析: Hadoop学习总结之二：HDFS读写过程解析

Hadoop技术-Hadoop概述.pptx: Hadoop技术-Hadoop概述.pptx

大数据安全-kerberos技术-hadoop安装包，hadoop版本：hadoop-3.3.4.tar.gz: 大数据安全-kerberos技术-hadoop安装包，hadoop版本：hadoop-3.3.4.tar.gz

HADOOP学习: 1、 hadoop官方网站，首页会...2、 Nutch ->谷歌GFS论文->doug 根据GFS设计了NDFS、06年启动hadoop项目。 3、环境支持操作系统 Linux 、WINDOWS-Cygwin、hadoop-for-windows JDK支持下载jdk，解压jdk，配置环境变量

Hadoop学习笔记: Hadoop学习笔记，自己总结的一些Hadoop学习笔记，比较简单。

基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc: 本次要实践的数据日志来源于国内某技术学习论坛，该论坛由某培训机构主办，汇聚了众多技术学习者，每天都有人发帖、回帖。至此，我们通过Python网络爬虫手段进行数据抓取，将我们网站数据（2013-05-30,2013-05-31）...

网络前沿技术 Hadoop: 实验1：Hadoop 安装与配置管理 4 1.1【实验目的】 4 1.2【实验环境】 4 1.3【实验过程】 4 Step1:基础设施. 5 Step2:各服务器安装JDK 7 Step3:各服务器的网络设置 8 Step4:在namenode安装Hadoop 9 Step5:修改Hadoop...

hadoop学习整理的文档: hadoop学习整理的文档

Hadoop 学习笔记.md: Hadoop 学习笔记.md

hadoop-auth-2.6.5-API文档-中英对照版.zip: 赠送jar包：hadoop-auth-2.6.5.jar 赠送原API文档：hadoop-auth-2.6.5-javadoc.jar 赠送源代码：hadoop-auth-2.6.5-sources.jar 包含翻译后的API文档：hadoop-auth-2.6.5-javadoc-API文档-中文(简体)-英语-对照版...

hadoop2.7汇总：新增功能最新编译64位安装、源码包、API、eclipse插件下载: hadoop2.7汇总：新增功能最新编译64位安装、源码包、API、eclipse插件下载

Hadoop学习路线图: 有计划的安排大数据的学习之路，可以在对Hadoop的学习规划上有一个更清晰的目标！

Global site tag (gtag.js) - Google Analytics