"Hadoop学习案例：使用Java统计单词出现次数"

需积分: 1 176 浏览量更新于2024-01-22 收藏 9.9MB DOCX 举报

"clown_hadoop.docx"是关于Hadoop的介绍文档，主要包括了Hadoop的核心组件--HDFS，MapReduce和YARN。此外，文档还详细描述了如何使用Hadoop进行作业提交，并提供了一个使用Java编写的单词统计案例。在该文档中，首先介绍了Hadoop的核心组件之一：Hadoop分布式文件系统（HDFS）。HDFS是Hadoop的文件系统，能够将大文件划分为多个数据块并存储在不同的计算机上。它具有高容错性和高可靠性的特点，适用于大规模数据处理。接下来，文档详细介绍了Hadoop的另一个核心组件--MapReduce。MapReduce用于将大规模数据集分解为较小的部分，并在集群中进行并行处理。文档解释了MapReduce的工作原理，并提供了一个使用Java编写的单词统计案例。该案例通过实现一个Wordcount01类来实现单词统计。首先，通过创建一个流并使用BufferedReader来读取文件中的单词。然后，创建一个可变的Map容器来存放读取的单词和对应的出现次数。接着，使用一个循环遍历文件中的每个单词，并将单词作为键，出现次数作为值添加到Map容器中。最后，输出统计结果。在文档中还提到了通过YARN（Yet Another Resource Negotiator）提交Hadoop作业的过程。YARN是Hadoop的集群管理器，用于管理资源和调度作业。在作业提交过程中，用户需要提供作业文件和参数，YARN会将作业分发到集群中的计算机上进行处理。最后，文档总结了学习Hadoop的重要性，并强调了通过实践案例来巩固和应用所学知识的重要性。通过完成单词统计案例，读者可以更好地理解Hadoop的核心概念和工作流程，并能够应用到实际的数据处理场景中。总体而言，"clown_hadoop.docx"是一份详细介绍Hadoop及其核心组件的文档。通过阅读该文档并完成单词统计案例，读者可以对Hadoop的概念和工作原理有更深入的理解。此外，文档还强调了通过实践案例来加深对所学知识的理解和运用能力的重要性。

-

0)&*8,'"'93,'67)"#$%&'2

--先创建一个流，对文件进行读取

 0;'7 3'7! 366

--创建一个容器盛放读取的单词可变的 +单词 ：次数

*8,'"'9;'7()*8,'"'936

--进行文件读取并向  中添加

,'';'

733';0H'366E;'62

--将读取道德一行内容进行拆分

,'45);')3<><6

--将数组中的每一个单词取出放在  集合中

B3,'7)62

--需要进行判断，如果不存在则以单词 7 为 +， 为  添加到 

中

B3E'')C+37662

376

A)2

--存在将  值取出F，再放入  中

';376F

376

'

Hdfs 回顾



剩余63页未读，继续阅读

clown2019

粉丝: 6
资源: 4

"Hadoop学习案例：使用Java统计单词出现次数"

hadoop.docx

hadoop基础.docx

Hadoop-03.docx

java_PDF.rar

C#生成PDF 读取PDF文本内容 获取PDF内图片_0520.rar

Rails_React_GraphQL_Docker_Boilerplate：Rails + React + GraphQL +Docker:clown_face::clown_face:

Matlab图像显示方法.docx

clown_in_the_cloud:传感器控制机器人

MATLAB像素颜色的表达方式.docx

tomcat显示出现中文乱码问题.docx

最新资源

C#生成PDF 读取PDF文本内容获取PDF内图片_0520.rar