分布式文件系统hdfs.docx
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,以下是对HDFS的详细介绍: 一、定义与背景 HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它是Apache Hadoop Core项目的一部分,最初是作为Apache Nutch搜索引擎项目的基础架构而开发的。 二、特点与优势 高容错性:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。硬件故障是常态,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成,故障的检测和自动快速恢复是HDFS一个很核心的设计目标。 高吞吐量:HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。它放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。