Hadoop生态圈中，HDFS（Hadoop Distributed File System）是我们熟知的Hadoop分布式文件系统，是一个高容错的系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件，将数据按块分布式存储到不同机器上，并被设计成适合运行在普通廉价硬件之上。

HDFS：全称为Hadoop分布式文件系统（Hadoop Distributed File System）,提供了高吞吐量的访问应用程序数据。
Hadoop YARN：Hadoop集群资源管理框架（Yet Another Resource Negotiator）,用于作业调度和集群资源管理。
Hadoop MapReduce：基于YARN的大数据集的并行处理系统。
Hadoop Common：支持其他Hadoop模块的通用功能，包括序列化、Java RPC和持久化数据结构等。
Ambari：是一个部署、管理和监视Apache Hadoop集群的开源框架。
Hbase：可扩展的分布式列式数据库，支持大表的结构化存储。
Hive：分布式数据仓库系统，提供基于类SQL的查询语言。
Mathout：机器学习和数据挖掘领域经典算法的实现。
Pig：一个高级数据流语言和执行环境，用来检索海量数据集。
Spark：一个快速和通用的计算引擎。Spark提供了一个简单而富有表现力的编程模型，支持多种应用，包括ETL、机器学习、数据流处理和图形计算。
Sqoop：在关系型数据库与Hadoop系统之间进行数据传输的工具。
Tez：是从MapReduce计算框架演化而来的通用DAG计算框架，可作为MapReduce/Pig/Hive等系统的底层数据处理引擎，它天生融入Hadoop2.0的资源管理平台YARN。
Zookeeper：提供Hadoop集群高性能的分布式的协调服务。

以下就HDFS展开进行详解。
一、HDFS架构
HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色，分别是Namenode和Datanode。Namenode是管理节点，负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间，用户能够以操作文件的形式在上面操作数据。HDFS的架构图如下所示：

HDFS上的文件是以数据块的形式存放的，这些数据块通常存储在一组Datanode上。Namenode执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求，并在Namenode的统一调度下执行数据块的创建、删除和复制。

二、HDFS数据复制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，除了最后一个，所有的数据块都是同样大小的。为了容错，文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。HDFS中的文件都是一次性写入的，并且严格要求在任何时候只能有一个写入者。

Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

副本的存放是HDFS可靠性和性能的关键，HDFS在这方面做了优化，它采用一种称为机架感知（Rack Awareness）的策略来改进数据的可靠性、可用性和网络带宽的利用率。

大型HDFS实例一般运行在跨越多个机架的计算机组成的集群上，不同机架上的两台机器之间的通讯需要经过交换机。在大多数情况下，同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。
通过一个机架感知的过程，Namenode可以确定每个Datanode所属的机架id。一个简单但没有优化的策略就是将副本存放在不同的机架上。这样可以有效防止当整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中，有利于当组件失效情况下的负载均衡。但是，因为这种策略的一个写操作需要传输数据块到多个机架，这增加了写的代价。
在大多数情况下，副本系数是3，HDFS存放策略是将一个副本存放在本地机架的节点上，一个副本放在同一机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，这就提高了写操作的效率。机架的错误远远比节点的错误少，所以这个策略不会影响到数据的可靠性和可用性。于此同时，因为数据块只放在两个（不是三个）不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。

三、HDFS应用场景

HDFS是Hadoop分布式文件系统，有如下技术特点和应用场景：
1、适合处理超大文件，数量级达到GB级、TB级甚至PB级；
2、支持集群规模的动态扩展；
3、适用于流式数据读写的场景，即“一次写入，多次读取”；
4、具有高容错性，数据块可以保存多个副本,实现负载均衡；
5、对硬件要求低，能够运行在廉价的商用机器集群上。
HDFS不适用于如下场景：
1、不适用于需要高效存储大量小文件的场景；
2、不适用于低延迟的数据访问场景；
3、不适合多用户同时写入和任意修改文件的场景。

优培东方送你一张干系人登记册：

干系人登记册
项目名称：准备日期：

姓名	职位	角色	联系信息	需求	期望	影响	分类

第1页/共1页

优培东方
PMP^®1月班报名招生正在进行

PMP®：Hadoop之HDFS架构与设计

二、HDFS数据复制

副本的存放是HDFS可靠性和性能的关键，HDFS在这方面做了优化，它采用一种称为机架感知（Rack Awareness）的策略来改进数据的可靠性、可用性和网络带宽的利用率。

三、HDFS应用场景

服务专区

PMP近期热点

学员感言

优培东方PMP®1月班报名招生正在进行

PMP®：Hadoop之HDFS架构与设计

二、HDFS数据复制

副本的存放是HDFS可靠性和性能的关键，HDFS在这方面做了优化，它采用一种称为机架感知（Rack Awareness）的策略来改进数据的可靠性、可用性和网络带宽的利用率。

三、HDFS应用场景

服务专区

PMP近期热点

学员感言

优培东方
PMP^®1月班报名招生正在进行