大数据 HDFS运行原理及MapReduce运行原理简介
Hadoop分布式文件系统(HDFS)是大数据技术中非常重要的一个组件,它的运行原理对于了解Hadoop系统的整体架构以及数据存储、读写操作等方面都非常重要。在HDFS的运行过程中,它会自动保存多个副本,并且将计算移动到数据所在的位置,从而实现了数据的冗余备份和分布式计算的功能。然而,HDFS也存在一些缺点,比如小文件存取会占用NameNode的内存,同时写入操作只支持追加而不能随机修改。 HDFS存储的最小单位是block,它的大小一般为128MB或256MB,文件会被分割成若干个block进行存储。HDFS的文件权限管理类似于Linux系统,通过设置权限来控制用户对文件的操作。HDFS的架构由三种节点组成,分别是NameNode(NN)、Secondary NameNode(SNN)和DataNode(DN)。NN负责保存文件的metadata(包括所有者、权限信息和block相关的信息)以及处理读写操作;SNN主要负责辅助NN进行故障恢复,合并fsimage和edits文件以减少NN的启动时间;DN负责存储具体的数据,每个数据(文件)会被分割成多个block,并且每个block默认会保存3个副本。同时,DN还会定期向NN发送心跳信号以保持与NN的联系。 在HDFS的运行过程中,NN保存的metadata会在HDFS启动后加载到计算机的内存中,其中除了block位置的信息保存在OS文件系统的fsimage文件中,对metadata的操作日志保存在OS文件系统的edits文件中。而block位置的信息是由DN在HDFS启动后上报给NN并加载到内存中的。此外,在NN正在加载metadata的过程中,HDFS处于安全模式,期间不允许写入新的文件,同时DN会检查各个block的完整性并进行修复。 除了HDFS的运行原理之外,大数据技术中另一个重要的组件是MapReduce。MapReduce是一种离线计算框架,它将整个计算过程分为split、map、shuffle、reduce几个主要的步骤。首先,MapReduce会将输入的数据进行划分,将其划分为若干个大小相等的split,然后将这些split分配给不同的map任务进行处理。在map阶段,每个map任务会对自己所分配到的split进行处理,并生成一系列的key-value对。接着,在shuffle阶段,MapReduce会根据key对生成的key-value对进行排序,然后将相同key的值分发给同一个reduce任务进行处理。最后,在reduce阶段,reduce任务会对接收到的所有值进行处理,并输出最终的计算结果。 综上所述,HDFS是大数据技术中非常重要的分布式文件系统,它的运行原理包括自动保存多个副本、移动计算等特点,同时也存在一些缺点。HDFS的架构由NN、SNN和DN组成,它们各自负责不同的任务。MapReduce是一种离线计算框架,通过将整个计算过程分为split、map、shuffle和reduce几个阶段,实现对大规模数据集的高效处理。通过对HDFS和MapReduce的理解,可以更加深入地了解和应用大数据技术。
![](https://csdnimg.cn/release/download_crawler_static/88023740/bg7.jpg)
![](https://csdnimg.cn/release/download_crawler_static/88023740/bg8.jpg)
剩余35页未读,继续阅读
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
- 粉丝: 20
- 资源: 2791
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)