优培东方
PMP®1月班报名招生正在进行

点击咨询

PMP®:Hadoop之HDFS架构与设计

发布时间: |2022年03月10日 | 点击次数:| 关键词:PMP,PMP   培训,PMP认证,PMP考试,PMP培训机构,优培东方

    Hadoop生态圈中,HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件,将数据按块分布式存储到不同机器上,并被设计成适合运行在普通廉价硬件之上。

  • HDFS:全称为Hadoop分布式文件系统(Hadoop Distributed File System),提供了高吞吐量的访问应用程序数据。
  • Hadoop YARN:Hadoop集群资源管理框架(Yet Another Resource Negotiator),用于作业调度和集群资源管理。
  • Hadoop MapReduce:基于YARN的大数据集的并行处理系统。
  • Hadoop Common:支持其他Hadoop模块的通用功能,包括序列化、Java RPC和持久化数据结构等。
  • Ambari:是一个部署、管理和监视Apache Hadoop集群的开源框架。
  • Hbase:可扩展的分布式列式数据库,支持大表的结构化存储。
  • Hive:分布式数据仓库系统,提供基于类SQL的查询语言。
  • Mathout:机器学习和数据挖掘领域经典算法的实现。
  • Pig:一个高级数据流语言和执行环境,用来检索海量数据集。
  • Spark:一个快速和通用的计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL、机器学习、数据流处理和图形计算。
  • Sqoop:在关系型数据库与Hadoop系统之间进行数据传输的工具。
  • Tez:是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduce/Pig/Hive等系统的底层数据处理引擎,它天生融入Hadoop2.0的资源管理平台YARN。
  • Zookeeper:提供Hadoop集群高性能的分布式的协调服务。
以下就HDFS展开进行详解。
一、HDFS架构
    HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色,分别是Namenode和Datanode。Namenode是管理节点,负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间,用户能够以操作文件的形式在上面操作数据。HDFS的架构图如下所示:

       HDFS上的文件是以数据块的形式存放的,这些数据块通常存储在一组Datanode上。Namenode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求,并在Namenode的统一调度下执行数据块的创建、删除和复制。

二、HDFS数据复制

        HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。HDFS中的文件都是一次性写入的,并且严格要求在任何时候只能有一个写入者。


        Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

        副本的存放是HDFS可靠性和性能的关键,HDFS在这方面做了优化,它采用一种称为机架感知(Rack Awareness)的策略来改进数据的可靠性、可用性和网络带宽的利用率。

        大型HDFS实例一般运行在跨越多个机架的计算机组成的集群上,不同机架上的两台机器之间的通讯需要经过交换机。在大多数情况下,同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。
通过一个机架感知的过程,Namenode可以确定每个Datanode所属的机架id。一个简单但没有优化的策略就是将副本存放在不同的机架上。这样可以有效防止当整个机架失效时数据的丢失,并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中,有利于当组件失效情况下的负载均衡。但是,因为这种策略的一个写操作需要传输数据块到多个机架,这增加了写的代价。
        在大多数情况下,副本系数是3,HDFS存放策略是将一个副本存放在本地机架的节点上,一个副本放在同一机架的另一个节点上,最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。机架的错误远远比节点的错误少,所以这个策略不会影响到数据的可靠性和可用性。于此同时,因为数据块只放在两个(不是三个)不同的机架上,所以此策略减少了读取数据时需要的网络传输总带宽。这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。

三、HDFS应用场景

HDFS是Hadoop分布式文件系统,有如下技术特点和应用场景:
1、适合处理超大文件,数量级达到GB级、TB级甚至PB级;
2、支持集群规模的动态扩展;
3、适用于流式数据读写的场景,即“一次写入,多次读取”;
4、具有高容错性,数据块可以保存多个副本,实现负载均衡;
5、对硬件要求低,能够运行在廉价的商用机器集群上。
HDFS不适用于如下场景:
1、不适用于需要高效存储大量小文件的场景;
2、不适用于低延迟的数据访问场景;
3、不适合多用户同时写入和任意修改文件的场景。


优培东方送你一张干系人登记册:


                                      干系人登记册
                     项目名称:                        准备日期:                      

 
  名   位   色 联系信息   求   望   响   类
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
                                                                                              第1/1

 
免责声明:以上便是【PMP®:Hadoop之HDFS架构与设计】的全部内容。大多文章纯属本网站原创,部分文章信息来源于网络以及网友投稿,本网站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性,如本站文章和转稿涉及版权等问题,请作者在及时联系本站,我们会尽快处理。
标题:PMP®:Hadoop之HDFS架构与设计 地址:http://gz.hxtdpx.com/6687.html

PMP近期热点

学员感言

1.来自广州的赵同学:

在朋友的推荐下选择了有优培东方(原广州慧翔),经历了时长两个月的pmp培训,过程虽然辛苦,但是结果说明了一切优培东方(原广州慧翔)的老师认真负责专业,特别是刘老师在线上课讲解pmbok难点考点,还悉心答疑。经过优培东方(原广州慧翔)PMP培训过程,我一次性5A通过了考试,希望更多的人选择优培东方(原广州慧翔),通过有效的过程能提高你的通过几率!

2.来自深圳的王同学:

报读优培东方(原广州慧翔)也是对比了几家之后才报的,讲课老师辅导老师都非常专业,主要是看中优培东方(原广州慧翔)的服务,包括网络课(不同的班还有面授课程)+超级全面的海量题库练习包括单元的综合的重点题的+模拟考试+讲解+考前辅导与评估(这很重要)能够给出专业评价并辅助预估通过可能性……总之很棒,跟上老师节奏都可以轻松通过,不错的培训机构,个人非常认可。

3.来自上海的陈同学:

很早接触项目管理而且工作,但由于公司要求有PMP认证证书才能正式命名为项目经理,后经同事(同事是在优培东方(原广州慧翔)机构顺利拿到PMP证书)介绍,报名参加了优培东方(原广州慧翔)PMP培训。 为了让我们学生能顺利通过PMP考试并获取到证书,刘老师总是不怕辛苦坚持利用每周4-5天晚上时间及安排的面授公开课方式,生动、切合实际地将枯燥乏味项目管理理论结合实际的案例及其生动幽默的方式进行讲解,授予学生学习方法和思路,结合刘老师的教学方式和方法,通过几个月的自身学习,使得顺利通过考试。

4.来自北京的王同学:

优培东方(原广州慧翔)是我工作以后接触的第一个培训机构,2015年的时候由于工作需要,我想报考PMP。但是市场上各种各样的机构太多了,各种评价褒贬不一。但是通过分析之后,我选择了优培东方(原广州慧翔)PMP培训。事实证明,做了调查后作出的选择不会太差,通过接近3个月的准备学习之后,我在第一次PMP考试时就顺利通过了PMP认证,拿到了PMP证书。本以为拿完证书后跟慧翔就算是byebye了,但是更可贵的资源才开始。通过优培东方(原广州慧翔)的学友群,我们定期组织活动,群上跟学友交流,认识了更多的同行朋友,甚至可以说获得了更多的资源资讯。 最后,认真地说如果想学PMP,我推荐优培东方(原广州慧翔)。