flink对文件统计某列词频打包执行代码

以下是基于Flink实现对文件统计某列词频的打包执行代码： 1. 首先，在pom.xml文件中添加Flink依赖： ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.12.2</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>1.12.2</version> </dependency> ``` 2. 然后，编写Java程序： ```java import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.java.utils.ParameterTool; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.util.Collector; public class WordCount { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 从参数中获取输入文件路径和需要统计的列 final ParameterTool params = ParameterTool.fromArgs(args); String input = params.get("input"); int column = params.getInt("column"); DataStream<String> text = env.readTextFile(input); DataStream<String> words = text.flatMap(new FlatMapFunction<String, String>() { @Override public void flatMap(String value, Collector<String> out) { String[] tokens = value.toLowerCase().split("\\W+"); if (tokens.length > column) { out.collect(tokens[column]); } } }); DataStream<String> counts = words.keyBy(value -> value).mapWithState(new WordCountFunction()); counts.print(); env.execute("Flink WordCount"); } } class WordCountFunction extends MapWithStatefulFunction<String, Long, Long, Tuple2<String, Long>> { @Override public Tuple2<String, Long> map(String value, Long state) { if (state == null) { state = 0L; } state++; return Tuple2.of(value, state); } } ``` 在上述代码中，我们首先读取输入文件，然后将文件中每一行数据按照指定的分隔符切分成单词，接着选择需要统计的列，最后按照单词进行分组，并使用mapWithState函数对单词进行计数。最后，我们将结果打印出来。 3. 将程序打包成jar包并提交到Flink集群上执行： ```bash $ mvn clean package $ flink run -c WordCount /path/to/wordcount.jar --input /path/to/input/file --column 2 ``` 在上述命令中，我们使用`flink run`命令将jar包提交到Flink集群上运行。其中，`-c`参数用于指定程序入口类，`--input`参数用于指定输入文件路径，`--column`参数用于指定需要统计的列。

阅读全文

flink对文件统计某列词频打包执行代码

相关推荐

Apache Flink 未授权访问+远程代码执行.pdf

PyFlink 词频统计完整代码

Flink简单入门代码Demo

flink对文件统计某列词频代码

flink对文件统计前10top打包执行代码

flink对文档一列统计前10top打包执行代码

flink对文件top打包执行代码

请写出flink统计总分的打包执行代码

请写出flink统计总分的打包执行scala代码

flink打包执行代码

请写出flink统计总分的打包执行scala代码和解释

flink统计每个人的总成绩样例打包执行代码

请写出flink统计文档某一列的最大值最小值以及平均值打包代码

头歌Flink词频统计

请写出flink统计每个人的总成绩样例可打包执行代码

flink词频统计scala

flink 流处理 词频统计

flink 操作iceberg 的示例代码

flink-sql-submit-client:执行Flink SQL 文件的客户端

flink样例完整代码

大家在看

paleo-core-0.10.2.jar and markdown-to-asciidoc-1.0.jar

基于MATLAB的表面裂纹识别与检测

iometer使用指南

IPC-7351 使用说明

日工作日程表－日工作安排-SAP_HR_考勤管理及配置_HR306_V3.0

最新推荐

Flink实战：用户行为分析之热门商品TopN统计

Flink +hudi+presto 流程图.docx

Flink实用教程_预览版_v1.pdf

大数据之flink教程-TableAPI和SQL.pdf

《剑指大数据——Flink学习精要（Java版）》（最终修订版）.pdf

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

flink 流处理词频统计