实现Java MapReduce的高频词统计功能

需积分: 10 34 浏览量更新于2024-11-02 1 收藏 4.48MB ZIP 举报

资源摘要信息:"word源码java-FBDP_hw5_wordCount:FBDP_hw5_wordCount" 该文件信息提供了一项编程作业的详细要求，涉及Hadoop MapReduce编程、文本数据处理、以及基本的软件开发知识。以下是对标题、描述、标签、文件名称列表中所含知识点的详细说明： 1. **Java编程语言和MapReduce框架** - **Java**：Java是一种广泛使用的面向对象编程语言，它是MapReduce框架的首选语言之一。由于Hadoop是用Java编写的，所以使用Java编写MapReduce程序相对方便。 - **MapReduce**：MapReduce是一种编程模型，用于处理大规模数据集的并行运算。MapReduce模型包含了两个主要的阶段：Map阶段和Reduce阶段。Map阶段处理输入数据，生成中间键值对；Reduce阶段对中间结果进行汇总，得到最终输出。 2. **Hadoop分布式文件系统(HDFS)** - HDFS是Hadoop的核心组件之一，它是一个分布式存储系统，适合存储大量数据，并能提供高吞吐量的数据访问。作业要求从HDFS加载莎士比亚文集的数据文件，说明了Hadoop环境的搭建和使用。 3. **词频统计** - 词频统计是文本分析的基础任务之一，旨在计算文本中每个单词的出现次数。这个作业的目标是统计莎士比亚文集中的词频，并按照出现次数进行排序。 4. **数据预处理** - 忽略大小写：在统计过程中，将所有单词转换为小写，以避免单词因大小写不同而被重复计算。 - 忽略标点符号：在文本处理中，标点符号通常不影响词频统计，因此需要在处理数据前将它们去除。 - 忽略停词：停词是指在语言中常见的、但对于文本分析意义不大的单词，如英文中的"the", "is", "and"等。在统计词频时，停词应该被忽略。 - 忽略数字：数字通常不作为词频统计的对象，需要从文本中排除。 - 单词长度限制：只统计长度在3个字符以上的单词。 5. **输出格式要求** - 输出格式需要按照给定的格式来展示，例如"1: 单词1，次数"，并且只展示前100个高频单词。这要求在Reduce阶段进行适当的排序和筛选操作。 6. **作业提交规范** - 作业提交方式规定了通过git仓库地址或者zip压缩包提交，这要求作业者熟悉版本控制工具git，并能够将代码按照一定的目录结构组织起来。 - **项目目录结构建议**： - project-name目录作为项目根目录。 - src目录下存放源代码。 - target目录用于存放编译后的类文件及jar包。 - output目录下的result目录存放输出结果文件。 - pom.xml文件是Maven项目管理工具的配置文件，用于声明项目构建配置、依赖等信息。 - .gitignore文件用于配置git版本控制中需要忽略的文件和目录。 7. **开源系统与代码分享** - **系统开源**：这一标签意味着该作业鼓励使用开源的工具和方法来完成。在IT行业，开源代表开放合作和代码共享，有利于促进知识的交流和技术的发展。 8. **文件名称列表** - "FBDP_hw5_wordCount-master"表示提交的压缩包中的主目录可能命名为"FBDP_hw5_wordCount"，"master"通常表示主分支，这在git版本控制中是一个常见的命名约定。以上这些知识点构成了完成该作业所需的理论和实践基础。作业者需要对这些概念有一定的了解和实践能力，才能够顺利完成这项任务。

收起资源包目录

word源码java-FBDP_hw5_wordCount:FBDP_hw5_wordCount （30个子文件）

bdkit的hdfs_web界面.jpg 190KB

中转文件夹.jpg 49KB

忽略大小写.jpg 25KB

bdkit的RM_web界面.jpg 238KB

按指定格式输出.jpg 81KB

.part-r-00000.crc 20B

WordCount-2.7.4.jar 12KB

job2的setClass们.jpg 92KB

_SUCCESS 0B

自定义降序比较类.jpg 42KB

Shakespeare.txt 9.32MB

忽略标点和数字.jpg 13KB

取排名前一百的单词.jpg 45KB

单词长度大于等于3.jpg 18KB

punctuation.txt 105B

WordCount-2.1.jar 12KB

README.md 5KB

stop-word-list.txt 2KB

._SUCCESS.crc 8B

命令行参数-skip.jpg 65KB

pom.xml 4KB

伪分布式输出结果.jpg 50KB

启动伪分布式成功的web界面.jpg 135KB

mapper使用InverseMapper.jpg 37KB

伪分布式输出结束后的web页面.jpg 120KB

WordCount.java 11KB

part-r-00000 1KB

忽略停词.jpg 43KB

job1的setClass们.jpg 57KB

WordCount-2.0.jar 12KB

共 30 条

x_jiali

粉丝: 5
资源: 897

实现Java MapReduce的高频词统计功能

word源码java-FBDP_Lab_4:FBDP_Lab_4

word源码java-wordcount:字数

word源码java-hadoop-test:hadoop、mapreduce的一些练习

mapreducewordcounter-master_wordcount_mapReduce_

CKEditor-WordCount-Plugin:CKEditor的WordCount插件

PersonalProject-Java:wordcount-Java提交仓库

霸屏天下源码java-Hanhan-Spark-Python:使用过Sparkcorepython、Sparksql、SparkMLlib、S

cs-1660-gcp-wordcount-hw

java8源码-java8-learn:java8-学习

hadoop-common-2.2.0-bin_32bit_&_64bit

最新资源