用idea编写hadoop实现对2020高校考研平均分数线的统计

以下是用IDEA编写Hadoop实现对2020高校考研平均分数线的统计的步骤： 1. 准备数据首先需要准备包含高校考研平均分数线的数据文件，格式为： ``` 高校名称平均分 ``` 例如： ``` 清华大学 345 北京大学 340 复旦大学 320 ``` 2. 创建Hadoop项目在IDEA中创建一个新的Maven项目，并添加hadoop的依赖。 3. 编写Mapper类 Mapper类负责将数据按照一定的规则进行切分和处理，以便后续的Reducer类进行统计。在本例中，Mapper类的任务是将高校名称作为key，平均分作为value输出。具体代码如下： ```java public class ScoreMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private Text outKey = new Text(); private IntWritable outValue = new IntWritable(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] tokens = value.toString().split(" "); outKey.set(tokens[0]); outValue.set(Integer.parseInt(tokens[1])); context.write(outKey, outValue); } } ``` 4. 编写Reducer类 Reducer类负责接收Mapper类输出的数据，并进行相应的统计。在本例中，Reducer类的任务是计算每个高校的平均分数线，并将结果输出。具体代码如下： ```java public class ScoreReducer extends Reducer<Text, IntWritable, Text, DoubleWritable> { private DoubleWritable outValue = new DoubleWritable(); @Override protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; int count = 0; for (IntWritable value : values) { sum += value.get(); count++; } double average = (double) sum / count; outValue.set(average); context.write(key, outValue); } } ``` 5. 配置Job并运行在主函数中配置Job的相关参数，并将Mapper和Reducer类设置到Job中。具体代码如下： ```java public class ScoreJob { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "ScoreJob"); job.setJarByClass(ScoreJob.class); job.setMapperClass(ScoreMapper.class); job.setReducerClass(ScoreReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(DoubleWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 其中，args[0]代表输入文件路径，args[1]代表输出文件路径。最后，运行该程序即可得到每个高校的平均分数线统计结果。

用idea编写hadoop实现对2020高校考研平均分数线的统计

相关推荐

基于Hadoop MapReduce的高校考研分数线统计分析项目代码+数据集.rar

Hadoop 分析统计学生考试成绩1

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

hadoop实现用户数和用户拨打电话的次数统计.zip

Hadoop的高校固定资产管理系统-基于Web的Hadoop的高校固定资产系统设计与实现-Hadoop的高校固定资产管理系统ja

java使用hadoop实现关联商品统计

使用hadoop实现WordCount实验报告.docx

云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip

基于hadoop实现的疾病信息统计平台+源代码+文档说明

基于Hadoop生态的高校学生行为预警平台设计与实现

钢桁架结构振动特性渐变分析工具

数据库实战-收集一些常见的 MySQL 死锁案例.zip

Android的移动应用与php服务器交互实例源码.rar

【滤波跟踪】基于matlab平方根容积卡尔曼滤波机器人手臂运动跟踪【含Matlab源码 4540期】.mp4

计算BMI等一些关于热量和蛋白质摄入的小工具.zip

IMG_20240520_180055.HEIC

基于java实现的智慧医院门诊管理系统项目源码+设计文档+实验报告+详细资料.zip

JavaScript_网页复制工具，网页抓取预渲染和SEO提升.zip

batik-xml-1.7.jar

node-v4.7.0-headers.tar.gz

最新推荐

使用hadoop实现WordCount实验报告.docx

基于hadoop的词频统计.docx

IDEA最新版2020.1的maven工程本地依赖仓库无法使用问题(已解决)

基于Hadoop的Kmeans算法实现

hadoop中实现java网络爬虫(示例讲解)

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

可见光定位LED及其供电硬件具体型号，广角镜头和探测器，实验设计具体流程步骤，

JSBSim Reference Manual