基于hadoop的词频统计.docx_基于hadoop的词频统计,基于hadoop平台的词频统计 - CSDN文库

需积分: 50 58 浏览量更新于2023-03-03 评论 13 收藏 3.85MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

摘要

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在

不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行

高速运算和存储。Hadoop 实现了一个分布式文件系统，简称 HDFS。HDFS

有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量

来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS 放宽了

POSIX 的要求，可以以流的形式访问文件系统中的数据。Hadoop 的框架最核

心的设计就是：HDFS 和 MapReduce。HDFS 为海量的数据提供了存储，而

MapReduce 则为海量的数据提供了计算。

关键词：hadoop，MapReduce，云计算，hdfs

I

一、前言

本课程设计要求学生学习 Hadoop 的基本概念如 MapReduce、HDFS 等，搭建

Hadoop 平台进行相应的设计，掌握在 LINUX 下常用命令，并掌握 Hadoop 的基本操作；

通过 MapReduce 编程，以哈姆雷特为研究对象，进行词频统计，统计单个或者多个文本

文件中每个词汇出现的次数；了解 Hadoop 分布式文件系统（HDFS）是 hadoop 上部署

的存储架构，熟练应用 Hadoop 对 HDFS 文件进行创建和读写等操作。通过本课程设计，

建立起对 Hadoop 云计算的初步了解，最后通过 Hadoop 平台实现结果的显示。

Hadoop 起源于 Apache Nutch 项目，始于 2002 年，是 Apache Lucene 的子项目

之一。2004 年，Google 在“操作系统设计与实现”（ Operating System Design and

Implementation ， OSDI ）会议上公开发表了题为 MapReduce ： Simpli&ed Data

Processing on Large Clusters（Mapreduce：简化大规模集群上的数据处理）的论文

之后，受到启发的 Doug Cutting 等人开始尝试实现 MapReduce 计算框架，并将它与

NDFS（Nutch Distributed File System）结合，用以支持 Nutch 引擎的主要算法。由

于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好的应用，所以它们于 2006 年 2 月被

分离出来，成为一套完整而独立的软件，并被命名为 Hadoop。到了 2008 年年初，

hadoop 已成为 Apache 的顶级项目，包含众多子项目，被应用到包括 Yahoo 在内的很多

互联网公司。

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File

System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是

MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对 Hadoop 分

布式计算平台最核心的分布式文件系统 HDFS、MapReduce 处理过程，以及数据仓库工

具 Hive 和分布式数据库 Hbase 的介绍，基本涵盖了 Hadoop 分布式平台的所有技术核心。

1

剩余31页未读，继续阅读

评论0

DerMond33

粉丝: 13
资源: 2

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈