为什么这串代码无法实现文件的去重： public static void main(String[] args) throws Exception{ System.setProperty("username","hadoop234"); Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://localhost:9000"); FileSystem fs = FileSystem.get(conf); int len = args.length; if(fs.exists(new Path(args[len-1]))) { fs.delete(new Path(args[len-1]),true); } Job job = Job.getInstance(conf,"Merge and duolicate removal"); job.setJarByClass(quchong.class); job.setMapperClass(MyMapper.class); job.setReducerClass(MyReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); for(int i=0;i<len-1;++i) { FileInputFormat.addInputPath(job, new Path(args[i])); } FileOutputFormat.setOutputPath(job, new Path(args[len-1])); System.exit(job.waitForCompletion(true) ? 0 : 1); fs.close(); }

时间: 2024-01-30 17:04:05 浏览: 67

这段代码中并没有实现去重，因为在 MapReduce 任务中实现去重通常需要借助 Map 和 Reduce 的聚合功能。而这段代码只是设置了一个 Map 和 Reduce 的类，但并没有在类中实现去重逻辑。如果想要实现文件的去重，需要在 MyMapper 和 MyReducer 类中添加代码来实现。具体来说，MyMapper 类中需要实现将输入文件中的每一行数据作为 key，value 为 null 的键值对输出。然后在 MyReducer 类中，可以利用 MapReduce 框架自动将相同 key 的数据聚合在一起的特性，只输出一个 key，将 value 设置为 null，这样就实现了去重。这里提供一个简单的伪代码实现： ```java public class MyMapper extends Mapper<LongWritable, Text, Text, NullWritable> { @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 将每一行数据作为 key，value 为 null 的键值对输出 context.write(value, NullWritable.get()); } } public class MyReducer extends Reducer<Text, NullWritable, Text, NullWritable> { @Override protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException { // 直接将 key 输出，value 设置为 null，实现去重 context.write(key, NullWritable.get()); } } ```

阅读全文

相关推荐

C# static void Main参数详解与命令行参数示例

Java配置文件详解：.properties的使用与操作

Java入门疑惑：main函数中args详解与作用

【Spring文件处理秘籍】：掌握org.springframework.util.FileCopyUtils的10大高级技巧

字符串到数组的高级处理：Java中复杂字符串的解决方案

【Java反射机制】：动态List转String，这些场景与实现你必须知道！

Java SFTP文件上传：高效压缩与代理服务器使用技巧

Hadoop序列文件入门：揭密Sequence File的7个关键特性及使用技巧

【性能飙升揭秘】：Hadoop 3.x与2.x性能比较，数据处理能力翻倍！

升级Hadoop不再迷茫：2.x到3.x迁移策略与最佳实践详解

使用Spring Batch处理文件：读取和写入各种文件格式

java实现以下功能：扫描指定路径下的excel文件，若无则进行提示，若存在excel文件则循环读取所有的文件，利用实体类@Excel注解的方式读取excel的数据，将读取到的数据插入oracle数据库指定的表中

学生独立完成一个项目,项目包括两个内容:1.配置HBASE数据库,掌握HBASE的基本操作。2.利用编程实现这些基本操作实现求解学生成绩平均分代码

写一个工具类Utils， 1.能实现调用对象中指定方法名字和参数列表方法的调用 2.实现给指定对象任意属性的赋值操作用java代码

Java jdk8代码写一个指定exchange 2019 版本的收取收件箱邮箱代码的demo并列举需要导入的pom.xml文件

最新推荐

CXF应用整理（包括大文件上传MTOM、安全机制）

给你一个jingqsdfgnvsdljk

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包

"互动学习：行动中的多样性与论文攻读经历"

【损失函数与批量梯度下降】：分析批量大小对损失函数影响，优化模型学习路径

在设计高性能模拟电路时，如何根据应用需求选择合适的运算放大器，并评估供电对电路性能的影响？