您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hdfs,mapreduce专题  
 

Hadoop 2.0中的常见概念解释

【作者:Hadoop实战专家】【关键词:HDFS MapReduce 】 【点击:57866次】【2013-11-1】
第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。对应Hadoop版本为Hadoop 0.23.x和2.x。  

相关热门搜索:

大数据标签:hadoop hdfs yarn mapreduce spark storm bigdata

(1) Hadoop 1.0
第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。
(2)  Hadoop 2.0
第二代Hadoop,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题,提出了HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展;针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN(Yet Another Resource Negotiator),它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现,其中,ResourceManager负责所有应用程序的资源分配,而ApplicationMaster仅负责管理一个应用程序。对应Hadoop版本为Hadoop 0.23.x和2.x。
(3) MapReduce 1.0或者MRv1(MapReduce version 1)
第一代MapReduce计算框架,它由两部分组成:编程模型(programming model)和运行时环境(runtime environment)。它的基本编程模型是将问题抽象成Map和Reduce两个阶段,其中Map阶段将输入数据解析成key/value,迭代调用map()函数处理后,再以key/value的形式输出到本地目录,而Reduce阶段则将key相同的value进行规约处理,并将最终结果写到HDFS上。它的运行时环境由两类服务组成:JobTracker和TaskTracker,其中,JobTracker负责资源管理和所有作业的控制,而TaskTracker负责接收来自JobTracker的命令并执行它。
(4)MapReduce 2.0或者MRv2(MapReduce version 2)或者NextGen MapReduc
MapReduce 2.0或者MRv2具有与MRv1相同的编程模型,唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后,运行于资源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker组成,而是变为一个作业控制进程ApplicationMaster,且ApplicationMaster仅负责一个作业的管理,至于资源的管理,则由YARN完成。
简而言之,MRv1是一个独立的离线计算框架,而MRv2则是运行于YARN之上的MRv1。
(5) YARNe
Hadoop 2.0中的资源管理框架,它是一个框架管理器,为各种框架进行资源分配和提供运行时环境。而MRv2则是运行在YARN之上的第一个计算框架,其他计算框架,比如Spark、Storm等,都正在往YARN上移植。YARN类似于几年前的资源管理系统mesos和更早的Torque。
(6) HDFS Federation
Hadoop 2.0中对HDFS进行了改进,使NameNode可以横向扩展成多个,其中,每个NameNode分管一部分目录,这不仅增强了HDFS的扩展性,也使HDFS具备了隔离性。

大数据系列hdfs,mapreduce相关文章:

最新评论
小鱼儿2014-09-10 10:11:21
【SparkR发布 让R跑在Spark上】 http://t.cn/8FIhxGX SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 ... (分享自@无觅阅读)
Elisa19892014-09-10 06:27:26
其实,你可以去试试看的
有什么难过2014-09-10 12:52:34
|
开心快乐2014-09-09 09:33:19
谁有谁有eclipse python插件
Jessica2014-09-09 01:12:22
还有datameer这些乱起八糟的软件
未来要幸福2014-09-08 07:19:43
6个字儿:健壮、稳定、强悍
迷茫2014-09-07 01:24:23
防不甚防,这种专业只打广告的已经提了!
高谦2014-09-07 03:45:31
理解 MapReduce | Zippera's blog http://t.cn/8F4Vwth
期待你的到2014-09-07 01:26:21
随着云时代的来临,大数据也吸引了越来越多的关注。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
 
  • Hadoop生态系统资料推荐