您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop专题  
 

新手指导,学习hadoop,改选择哪个版本?

【作者:Hadoop实战专家】【关键词:链接 hadoop 版本 】 【点击:20296次】【2013-10-2】
对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(2012年12月23日),Apache和Cloudera最新的稳定版分别是Hadoop 1.0.4和CDH3U4,因此,你可以从中任选一个使用。  

相关热门搜索:

大数据标签:hadoop hdfs yarn mapreduce hbase hive bigdata

当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

(1)是否为开源软件,即是否免费。

(2) 是否有稳定版,这个一般软件官方网站会给出说明。

(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

(4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

考虑到以上几个因素,我们分析一下开源软件Hadoop。对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(2012年12月23日),Apache和Cloudera最新的稳定版分别是Hadoop 1.0.4和CDH3U4,因此,你可以从中任选一个使用。

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。

1. Cloudera Hadoop

1.1  CDH版本衍化

Apache当前的版本管理是比较混乱的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。

我们知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有4个版本,其中,前两个已经不再更新,最近的两个,分别是CDH3(在Apache Hadoop 0.20.2版本基础上演化而来的)和CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),分别对应Apache的Hadoop 1.0和Hadoop 2.0,它们每隔一段时间便会更新一次。

5.PNG (74.99 KB, 下载次数: 2)

  

2013-12-1 16:17 上传

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

1.2 CDH版本下载

(1) 版本含义介绍:

https://ccp.cloudera.com/display/DOC/CDH+Version+and+Packaging+Information

(2)各版本特性查看:

https://ccp.cloudera.com/display/DOC/CDH+Packaging+Information+for+Previous+Releases

(3)各版本下载:

CDH3:http://archive.cloudera.com/cdh/3/

CDH4:http://archive.cloudera.com/cdh4/cdh/4/

注意,Hadoop压缩包在这两个链接中的最上层目录中,不在某个文件夹里,很多人进到链接还找不到安装包!

2. Apache Hadoop

2.1  Apache版本衍化

截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性。

经过上面的大体解释,大家可能明白了Hadoop以重大特性区分各个版本的,总结起来,用于区分Hadoop版本的特性有以下几个:

(1)Append     支持文件追加功能,如果想使用HBase,需要这个特性。

(2)RAID        在保证数据可靠的前提下,通过引入校验码较少数据块数目。详细链接:

https://issues.apache.org/jira/browse/HDFS/component/12313080

(3)Symlink    支持HDFS文件链接,具体可参考: https://issues.apache.org/jira/browse/HDFS-245

(4)Security    Hadoop安全,具体可参考:https://issues.apache.org/jira/browse/HADOOP-4487

(5) NameNode HA  具体可参考:https://issues.apache.org/jira/browse/HDFS-1064

(6) HDFS Federation和YARN

6.PNG (252.85 KB, 下载次数: 2)

  

2013-12-1 16:18 上传

需要注意的是,Hadoop 2.0主要由Yahoo独立出来的hortonworks公司主持开发。

2.2  Apache版本下载

(1) 各版本说明:http://hadoop.apache.org/releases.html。

(2) 下载稳定版:找到一个镜像,下载stable文件夹下的版本。

(3) Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中。

3. 如何选择Hadoop版本

当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

大数据系列hadoop相关文章:

最新评论
且行且珍惜2014-09-10 02:57:47
Hadoop 新 MapReduce 框架 Yarn 详解 http://t.cn/zT29Y4R
追求浪漫2014-09-09 07:42:30
但是我在eclipse中访问HDFS正常,创建、删除文件都可以
不分手恋人2014-09-08 11:37:57
从零开始nodejs系列文章 | 粉丝日志 跨界的IT博客,核心IT技术包括:Hadoop,R,RHadoop,Nodejs,AngularJS,KVM,NoSQL,IT金融 RvTKpcm
对着入座2014-09-08 07:21:21
【技术干货!深入理解Hadoop集群和网络】本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。http://t.cn/RPtu92e
justinliucs2014-09-08 10:15:33
None of yarn.resourcemanager.address.rm1 yarn.resourcemanager.address.rm2
永远的单身2014-09-08 04:24:14
学习了
欣欣2014-09-07 06:51:54
我就以为是来搞搞网站的
莫陌2014-09-06 12:29:27
~ 迪米达克 (Nick Dimiduk) (作者), 卡拉纳 (Amandeep Khurana) (作者), 谢磊 (译者)
六星2014-09-05 07:23:24
Hadoop集群(第6期)_WordCount运行详解 - 虾皮 - 博客园 http://t.cn/zO3vZj6
留言2014-09-05 12:34:54
Mark. 终于把Spring Data For Hadoop配置好了,走了很多弯路,现在写MapReduce再也不用那丑陋的命令行了,改为配置成bean注入 + Groovy。
 
  • Hadoop生态系统资料推荐