"大数据(hadoop)竞赛练习题与知识总结"

hadoop

hdfs

需积分: 34 52 浏览量更新于2024-01-23 1 收藏 51KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

大数据(hadoop)竞赛练习题本文主要总结了关于大数据以及Hadoop的基础知识和原理，以及大数据生态圈中的一些组件，通过选择题的形式进行练习和巩固。首先介绍了Hadoop的作者是Doug Cutting。Hadoop起始于2002年，属于Apache项目的一部分，之后发展成为了一个开源项目，成为了大数据处理的重要工具。在2003年，Google发布了GFS论文，2004年，Nutch的开发者开发了NDFS，也就是Hadoop的分布式文件系统。2004年，Google发表了关于MapReduce的论文，这也是Hadoop中的另一个重要组件。在Centos7操作系统中，如果想要查看本机的主机名，可以使用hostname命令。reboot命令是用于重启操作系统的，pwd命令用于查看当前工作路径，tail命令用于查看文件的最后一部分。接下来是关于大数据价值密度的描述。大数据由于其数据量庞大，所以其价值也会相对较高。大数据中潜藏着大量的信息和洞察力，通过对大数据的深度分析和挖掘，可以带来很多商业和科学上的收益。通过对大数据中的模式和趋势的发现，可以帮助企业做出更准确的决策，提高效率和竞争力。接下来是一些大数据生态圈中的组件。1. HDFS：Hadoop分布式文件系统，用于存储和管理大量数据。2. MapReduce：用于大规模数据的并行处理和计算。3. YARN：负责集群资源的调度和管理，可以有效地管理集群中的各种作业。4. Hive：一个数据仓库基础设施，能够提供类似于SQL的查询语言来对大数据进行查询和分析。5. HBase：一个分布式的、可扩展的、面向列的NoSQL数据库。6. Spark：一个高效的大数据处理引擎，可以在内存中进行数据分析和处理。总的来说，大数据是指在一定时间范围内产生的数据量巨大，数据速度快，数据类型多样的数据集合。Hadoop作为大数据处理的核心工具，具备分布式存储和计算能力，可以帮助用户处理大规模数据，并从中挖掘出有价值的信息。大数据生态圈中的一些组件如HDFS、MapReduce、YARN、Hive、HBase和Spark等，为大数据的存储、计算、查询和分析提供了丰富的解决方案。通过对这些知识的学习和实践，可以提高对大数据处理和分析的能力，为企业决策和创新提供支持。

资源详情

资源推荐

在 HDFS 的根目录创建 input 目录、在本地/simple 目录下创建文件 data.txt 并上传到 HDFS 的

/input 目录下、将集群上的/input/data.txt 下载到/appdata(该目录已存在)、最后关闭 hadoop

[root@master /]#cd /simple/hadoop2.7.3/sbin

[root@master sbin]#start-all.sh

[root@master sbin]#jps

[root@master sbin]#hadoop fs -ls -R /

[root@master sbin]#hadoop fs -mkdir /input

[root@master sbin]#cd /simple

[root@master simple]#touch data.txt

[root@master simple]#hadoop fs -put data.txt /input

[root@master simple]#hadoop fs -get /input/data.txt /appdata

[root@master simple]#cd /simple/hadoop2.7.3/sbin

[root@master sbin]#stop-all.sh

2、已知当前 hadoop 已全部正常启动，且 HDFS 的根目录下不存在 hdfstest 的目录，用到的

ip 和端口写 192.168.1.26:9000

使用 java api，在 HDFS 的根目录下，创建名为 hdfstest 的目录

import org.apache.hadoop.fs.FileSystem;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class MakeDir{

public static void main(String[] args)throws IOException,InterruptedException{

FileSystem fs = FileSystem.get(new URI("hdfs://192.168.1.26:9000"), new

Configuration(), "root");

Boolean flag = fs.mkdirs(new Path("/hdfstest"));

System.out.println(flag?"创建成功":"创建失败");

}

3、MapReduce 计算平均成绩，数据(已写好，计算即可)存放在 hdfs 的/input/data.txt 里，用

到的 ip 和端口写 192.168.1.26:9000，当前 hadoop 已正常启动

第一列为编号，第二列为成绩，用”\t”分隔,数据样式如下所示：

9000 98

9001 99

9002 67

9003 45

9004 45

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import java.io.IOException;

剩余36页未读，继续阅读

linux20031021

粉丝: 0
资源: 11

"大数据(hadoop)竞赛练习题与知识总结"

Hadoop测试题

hadoop考试题实例

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

大数据hadoop从入门到精通

大数据hadoop数据可视化项目

大数据 hadoop平台 标书

大数据hadoop课程设计

大数据hadoop题库

大数据hadoop集群虚拟机环境下载

大数据hadoop学习路径

大数据Hadoop平台实现新能源智能运营:代码实现

好程序员大数据hadoop

大数据hadoop方案

大数据Hadoop方案是一种开源的分布式计算框架具体方案

大数据hadoop伪安装

头哥大数据hadoop分布式文件系统

大数据Hadoop技术

大数据Hadoop平台实现新能源智能运营:

大数据hadoop与spark研究——1 spark环境搭建

阿里云大数据组件和hadoop大数据组件

最新资源

大数据 hadoop平台标书