大数据离线分析：HDFS详解与元数据安全管理

179 浏览量更新于2024-09-01 收藏 101KB PDF 举报

本文档主要梳理了大数据离线处理框架中的核心组件Hadoop Distributed File System (HDFS) 和 MapReduce 的相关知识点。首先，我们来深入了解HDFS： **HDFS (Hadoop Distributed File System)** 1. **HDFS架构与工作原理** - NameNode：作为主节点，负责存储元数据，如文件目录树和块信息，这些数据被缓存在内存中以提高访问速度。 - DataNode：负责实际的数据存储，以数据块的形式存放，定期向NameNode发送心跳并报告存储状态。 2. **数据上传和下载** - 用户上传文件时，通过客户端将文件切分成小块并上传到不同的DataNode，NameNode协调存储位置。 - 下载文件时，客户端根据NameNode提供的BlockLocations信息，从相应的DataNode下载数据。 3. **元数据安全机制** - NameNode通过持久化日志记录所有操作，并利用Secondary NameNode的checkpoint功能定期合并fsImage（存储元数据的文件）和日志，确保数据一致性。 4. **数据恢复策略** - 当NameNode磁盘损坏时，可以通过备份的fsImage和日志恢复数据。通过配置多个dfs.namenode.name.dir，利用本地和网络存储，提高容错性。 5. **NameNode和Datanode扩展性** - NameNode是瓶颈，因为它的存储能力受限于内存，而Datanode容易水平扩展。不过，由于元数据大小相对较小，NameNode通常不会成为性能瓶颈。 6. **Datanode问题解决** - 如果Datanode未在可用列表中显示，可能是由于已有其他NameNode的标识，需要检查DataNode的配置。 7. **文件下载问题** - 在Windows系统中下载文件可能遇到错误，因为默认使用内核磁盘写入，需使用winutil工具或设置Java进行磁盘写入。接下来，文章转向MapReduce： **MapReduce** 1. **Job流程** - 从FileInputFormat读取数据，经过map阶段处理，数据经过shuffle阶段，最后由reduce阶段汇总结果。 2. **Job提交与控制** - 用户提交Job时，需要理解整个生命周期，包括配置文件、任务调度等。 3. **自定义数据类型** - 对于自定义的Java对象参与MapReduce，需要实现Writable和Comparable接口以支持序列化和排序。 4. **自定义OutputFormat** - 用户可以根据需求创建定制化的OutputFormat，以适应特定的数据处理场景。 5. **MapReduce应用示例** - 包括排序、Top N查询、用户流量分析（例如找出流量前几名的用户）以及在reduce阶段进行数据合并的场景。通过学习本文档，读者可以掌握HDFS的基本原理、数据操作、元数据管理和高可用性，以及MapReduce的工作流程和应用实例，这对于理解和使用大数据离线处理框架至关重要。

大数据框架整理大数据框架整理

　　大数据离线部分

　　一、HDFS

　　1：HDFS的架构部分及工作原理

　　NameNode：负责管理元素据，将信息保存在内存中

　　DataNode：保存数据，以块的形式保存。启动后需要定时的向NameNode发送心跳，报告自身存储的块信息

　　2：HDFS的上传过程

　　3：HDFS的下载

　　4：NameNode的元数据安全机制

　　以记日志的形式将每一个操作写在磁盘的日志文件中，然后借助Secondary NameNode的checkpoint功能将fsImage和日

志进行合并。

　　重点：记住checkpoint工作过程

　　5：如果服务器的磁盘坏了，如何挽救数据？

　　配置多个dfs.namenode.name.dir 路径为本地磁盘路径和nfs网络磁盘路径。

　　6：hdfs集群中，受到拓展瓶颈的是NameNode还是Datanode?

　　是NameNode，因为DataNode不够可以很方便的水平拓展，而工作的NameNode只有一个，他的存储能力完全取决于他

的内存，所以。。。。，

　　但是其实NameNode一般不会成为瓶颈，因为一个块记录的元数据信息大小约为150B，如果每一个块大小为128M的话，

那么15G的NameNode内存可以存储12PB的数据。

　　7：datanode明明已启动，但是集群中的可用datanode列表中是没有，怎么办？

　　已经不是处女，在她的Data目录下，已经有其他NameNode的标记，这个NameNode不认。

　　8：文件下载到window中，为什么会报错？

　　默认使用操作系统的内核进行磁盘数据的写入，也是需要一个winutil的工具，而默认的安装包中不提供，所以需要编译源

码或者设置为使用Java的进行磁盘写入。

　　9：hadoop的HA（高可用）

　　二、MapReduce

　　1：MapReduce中，fileinputformat -> map -> shuffle -> reduce的过程

　　2：MapReduce中，job提交的过程

　　3：自定义Javabean作为数据，需要extends writableandCompareble接口。

　　4：自定义outputformat，进行不同方向的处理。

　　5：MapReduce的一些应用场景

　　1、排序并且求 TOPOne 和TOPN

　　2、求某个用户前几个月的总流量，并且选择出流量前几名的用户。

　　3、reduce端的join

　　4、map端join

　　5、求共同好友问题

　　三、hive

　　1：什么是hive？

　　一个将sql转化为MapReduce程序的、单机版的、数据仓库工具。通过关系型数据库（mysql等）来记录表元数据信息。

真正的数据在HDFS中。

　　Hive利用HDFS存储数据，利用MapReduce查询分析数据

　　hive2.0版本之后，都是基于Spark处理了。

　　安装的时候，需要注意jline的版本冲突。

　　2：如何启动？

　　3：执行的sql的形式

　　hiveshell、 hive -e "sql命令"、 hive -f "一个包含着很多SQL语句的文件"

　　4：hive的创建表操作

　　内部表、外部表差连个关键字（external 和 location）

　　分区表、分桶表

　　5：hive查询表

　　join

　　动态分区

　　分组查询

　　复杂的那个累计报表操作。

　　6：hive自定义函数（UDF）

　　四、sqoop

　　利用hadoop的map端进行数据的并行导入导出。

　　安装在HDFS上，配置HDFS的路径和Hive路径即可。

　　五、flume

　　1：agent：sources 、 channel 、 sinks

　　2：sources：exec、spooldir、arvo （加一个拦截器）3：channel：men 、 disk4：sinks：arvo 、HDFS、kafka

　　5：flume安装在数据源这一边。

　　6：如何自定义拦截器？class myiterceptor implements Iterceptor

　　//里面有一个静态的公共内部类。

　　public static class mybuilder implements Iterceptor.Builder

　　7：如何实现flume的多级连接，以及如何实现高可用？

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38592134

粉丝: 4

大数据离线分析：HDFS详解与元数据安全管理

常用大数据技术框架总结

大数据框架整理.docx

大数据框架整理.pdf

【大数据学习资料】大数据框架知识点总结.pdf

大数据面试整理

大数据资料整理

大数据文档整理.zip

大数据资源整理.docx

大数据资源整理.pdf

Hadoop、Spark等5种大数据框架对比，你的项目该用哪种？

最新资源