优培东方
PMP®1月班报名招生正在进行

点击咨询

PMP®:Hadoop之YARN原理解析

发布时间: |2022年03月08日 | 点击次数:| 关键词:PMP,PMP 培训,PMP认证,PMP考试,PMP培训机构,优培东方

      Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

  • HDFS:全称为Hadoop分布式文件系统(Hadoop Distributed File System),提供了高吞吐量的访问应用程序数据。

  • Hadoop YARN:Hadoop集群资源管理框架(Yet Another Resource Negotiator),用于作业调度和集群资源管理。

  • Hadoop MapReduce:基于YARN的大数据集的并行处理系统。

  • Hadoop Common:支持其他Hadoop模块的通用功能,包括序列化、Java RPC和持久化数据结构等。

  • Ambari:是一个部署、管理和监视Apache Hadoop集群的开源框架。

  • Hbase:可扩展的分布式列式数据库,支持大表的结构化存储。

  • Hive:分布式数据仓库系统,提供基于类SQL的查询语言。

  • Mathout:机器学习和数据挖掘领域经典算法的实现。

  • Pig:一个高级数据流语言和执行环境,用来检索海量数据集。

  • Spark:一个快速和通用的计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL、机器学习、数据流处理和图形计算。

  • Sqoop:在关系型数据库与Hadoop系统之间进行数据传输的工具。

  • Tez:是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduce/Pig/Hive等系统的底层数据处理引擎,它天生融入Hadoop2.0的资源管理平台YARN。

  • Zookeeper:提供Hadoop集群高性能的分布式的协调服务。

   以下就YARN展开进行详解。

一、YARN简介

         YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。YARN可以将多种计算框架(如离线处理MapReduce、在线处理的Storm、内存计算框架Spark等)部署到一个公共集群中,共享集群的资源,并提供如下功能。

(1)资源的统一管理和调度:集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。在资源进行运算任务时,计算框架需要向YARN申请Container,YARN按照策略对资源进行调度,进行Container的分配。

(2)资源隔离:YARN使用了轻量级资源隔离机制Cgroup进行资源隔离,以避免相互干扰,一旦Container使用的资源量超过事先定义的上限值,就将其杀死。

        YARN可以被看作是一个云操作系统,由一个ResourceManager和多个NodeManager组成,它负责管理所有NodeManger上多维度资源,并以Container(启动一个Container相当于启动一个进程)方式分配给应用程序启动ApplicationMaster(相当于主进程中运行逻辑)或运行ApplicationMaster切分的各Task(相当于子进程中运行逻辑)。

二、YARN体系架构

        YARN是Master/Slave结构,主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。YARN架构如下所示。

  • ResourceManager(RM):负责对各NM上的资源进行统一管理和调度。给AM分配空闲的Container并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。其主要由两个组件构成:调度器和应用程序管理器。

    1. 调度器(Scheduler):调度器根据容量、队列等限制条件,将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位是Container,从而限定每个任务使用的资源量。

    2. 应用程序管理器(Applications Manager):应用程序管理器负责管理整个系统中所有的应用程序,包括应用程序提交,与调度器协商资源以启动AM,监控AM运行状态并在失败时重新启动等。

  • NodeManager(NM):NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container启动/停止等请求。

  • ApplicationMaster(AM):用户提交的应用程序均包含一个AM,负责应用的监控,跟踪应用执行状态,重启失败任务等。

  • Container:Container封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,是YARN对资源的抽象。当AM向RM申请资源时,RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。

三、YARN调度模型

        YARN资源调度模型YARN提供了一个资源管理平台能够将集群中的资源统一进行管理。所有节点上的多维度资源都会根据申请抽象为一个个Container。

YARN采用了双层资源调度模型:

        RM中的资源调度器将资源分配给各个AM:资源分配过程是异步的。资源调度器将资源分配给一个应用程序后,不会立刻push给对应的AM,而是暂时放到一个缓冲区中,等待AM通过周期性的心跳主动来取;

AM领取到资源后再进一步分配给它内部的各个任务:不属于YARN平台的范畴,由用户自行实现。YARN目前采用的资源分配算法有三种。

(1)先来先调度FIFO:先按照优先级高低调度,如优先级相同则按照提交时间先后顺序调度,如提交时间相同则按照队列名或Application ID比较顺序调度。

(2)公平调度FAIR:该算法的思想是尽可能地公平调度,即已分配资源量少的优先级高。

(3)主资源公平调度DRF:该算法扩展了最大最小公平算法,使之能够支持多维资源,算法是配置资源百分比小的优先级高。

四、YARN的优缺点和使用场景

  • YARN使用了轻量级资源隔离机制Cgroups进行资源隔离以避免资源之间相互干扰,实现对CPU和内存两种资源的隔离。

  • YARN上可以运行各种应用类型的计算框架,包括离线计算MapReduce、DAG计算框架Tez、基于内存的计算框架SPARK、实时计算框架Storm等。

  • 支持先进先出FIFO、公平调度FAIR、主资源公平调度DRF等分配算法。

  • 支持多租户资源调度,包括支持资源按比例分配、支持层级队列划分和支持资源抢占。
    PMP®:Hadoop之YARN原理解析

    优培东方送你一张内部需求跟踪矩阵:

                                       内部需求跟踪矩阵
                     项目名称:                        准备日期:                      

    编号 商业需求 排序 来源 编号 技术需求 排序 来源
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   

                                                                   1/1

免责声明:以上便是【PMP®:Hadoop之YARN原理解析】的全部内容。大多文章纯属本网站原创,部分文章信息来源于网络以及网友投稿,本网站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性,如本站文章和转稿涉及版权等问题,请作者在及时联系本站,我们会尽快处理。
标题:PMP®:Hadoop之YARN原理解析 地址:http://gz.hxtdpx.com/6686.html

PMP近期热点

学员感言

1.来自广州的赵同学:

在朋友的推荐下选择了有优培东方(原广州慧翔),经历了时长两个月的pmp培训,过程虽然辛苦,但是结果说明了一切优培东方(原广州慧翔)的老师认真负责专业,特别是刘老师在线上课讲解pmbok难点考点,还悉心答疑。经过优培东方(原广州慧翔)PMP培训过程,我一次性5A通过了考试,希望更多的人选择优培东方(原广州慧翔),通过有效的过程能提高你的通过几率!

2.来自深圳的王同学:

报读优培东方(原广州慧翔)也是对比了几家之后才报的,讲课老师辅导老师都非常专业,主要是看中优培东方(原广州慧翔)的服务,包括网络课(不同的班还有面授课程)+超级全面的海量题库练习包括单元的综合的重点题的+模拟考试+讲解+考前辅导与评估(这很重要)能够给出专业评价并辅助预估通过可能性……总之很棒,跟上老师节奏都可以轻松通过,不错的培训机构,个人非常认可。

3.来自上海的陈同学:

很早接触项目管理而且工作,但由于公司要求有PMP认证证书才能正式命名为项目经理,后经同事(同事是在优培东方(原广州慧翔)机构顺利拿到PMP证书)介绍,报名参加了优培东方(原广州慧翔)PMP培训。 为了让我们学生能顺利通过PMP考试并获取到证书,刘老师总是不怕辛苦坚持利用每周4-5天晚上时间及安排的面授公开课方式,生动、切合实际地将枯燥乏味项目管理理论结合实际的案例及其生动幽默的方式进行讲解,授予学生学习方法和思路,结合刘老师的教学方式和方法,通过几个月的自身学习,使得顺利通过考试。

4.来自北京的王同学:

优培东方(原广州慧翔)是我工作以后接触的第一个培训机构,2015年的时候由于工作需要,我想报考PMP。但是市场上各种各样的机构太多了,各种评价褒贬不一。但是通过分析之后,我选择了优培东方(原广州慧翔)PMP培训。事实证明,做了调查后作出的选择不会太差,通过接近3个月的准备学习之后,我在第一次PMP考试时就顺利通过了PMP认证,拿到了PMP证书。本以为拿完证书后跟慧翔就算是byebye了,但是更可贵的资源才开始。通过优培东方(原广州慧翔)的学友群,我们定期组织活动,群上跟学友交流,认识了更多的同行朋友,甚至可以说获得了更多的资源资讯。 最后,认真地说如果想学PMP,我推荐优培东方(原广州慧翔)。