使用PyCharm编程实现SparkCore的WordCount单词统计基础,并保存在HDFS或本地文件中 注意:新建文件为words.txt,文件路径在/export/server/data下面,内容如下 Spark Flink flume hadoop Flink spark flume hadoop
时间: 2024-03-22 20:37:37 浏览: 232
单词统计WordCount-hadoop程序
首先需要安装PySpark和Hadoop环境,然后在PyCharm中创建一个PySpark项目。
接下来,可以使用以下代码实现WordCount功能并将结果保存在HDFS中:
```python
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("WordCount")
sc = SparkContext(conf=conf)
# 读取文件
lines = sc.textFile("hdfs://localhost:9000/export/server/data/words.txt")
# 切分单词并计数
word_counts = lines.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda x, y: x + y)
# 将结果保存到HDFS中
word_counts.saveAsTextFile("hdfs://localhost:9000/export/server/result/word_count")
# 关闭SparkContext
sc.stop()
```
如果想将结果保存到本地文件中,可以将最后一行代码改为:
```python
word_counts.saveAsTextFile("/path/to/local/file")
```
其中`/path/to/local/file`为本地文件路径。
阅读全文