用spark RDD 编程实现,实现单词统计
时间: 2023-11-14 15:13:28 浏览: 94
使用spark 对文本分词统计
好的,这是一个技术问题,可以回答。下面是使用Spark RDD编程实现单词统计的代码示例:
```python
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("Word Count")
sc = SparkContext(conf=conf)
text_file = sc.textFile("hdfs://path/to/your/file.txt")
word_counts = text_file.flatMap(lambda line: line.split()) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
word_counts.saveAsTextFile("hdfs://path/to/your/output")
sc.stop()
```
这段代码使用了Spark RDD编程模型实现了对文本文件中单词的统计。首先,使用`textFile`方法读取文本文件,然后使用`flatMap`方法将每一行拆分成单词,使用`map`方法将单词转化为键值对形式,其中键为单词,值为1。最后,使用`reduceByKey`方法对相同键的值进行累加,得到每个单词出现的次数。统计结果可以通过`saveAsTextFile`方法保存到指定的路径中。
阅读全文