实验内容：统计timemachine.txt文件里的所有单词出现的次数，将统计结果写入到mysql中的wordCount表中。wordCount表结构为id word count，其中id为主键，word为单词，count为出现次数。具体内容：在mysql中新建spark数据库，在spark数据库中创建表wordCount 在wordCount表中插入一条标记数据(如下图) 编写代码，并运行编写的代码，将统计数据写入数据库在mysql命令行查询wordCount表中的数据数量在mysql命令行中验证是否有非法单词（select * from wordCount where word like '%'%'）使用pyspark，连接数据库，完成下列操作 timemachine.txt中一共有多少个单词(参考课本106页) timemachine.txt中一共出现过多少个单词 timemachine.txt中出现次数最多的10个单词 timemachine.txt中出现次数超过200次的单词 timemachine.txt中平均每个单词出现的次数

时间: 2024-03-26 15:40:20 浏览: 11

好的，我明白了。让我逐一回答你的问题： 1. timemachine.txt中一共有多少个单词？可以使用以下代码实现： ```python # 读取文件 rdd = sc.textFile("timemachine.txt") # 切割单词 words = rdd.flatMap(lambda line: line.strip().split(" ")) # 统计单词个数 count = words.count() print("timemachine.txt中一共有%s个单词" % count) ``` 2. timemachine.txt中一共出现过多少个单词？可以使用以下代码实现： ```python # 读取文件 rdd = sc.textFile("timemachine.txt") # 切割单词 words = rdd.flatMap(lambda line: line.strip().split(" ")) # 统计单词个数 count = words.distinct().count() print("timemachine.txt中一共出现过%s个单词" % count) ``` 3. timemachine.txt中出现次数最多的10个单词？可以使用以下代码实现： ```python # 读取文件 rdd = sc.textFile("timemachine.txt") # 切割单词 words = rdd.flatMap(lambda line: line.strip().split(" ")) # 统计单词个数，按照出现次数降序排列，取前10个 top10 = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b).sortBy(lambda x: x[1], False).take(10) print("timemachine.txt中出现次数最多的10个单词为：") for (word, count) in top10: print(word, count) ``` 4. timemachine.txt中出现次数超过200次的单词？可以使用以下代码实现： ```python # 读取文件 rdd = sc.textFile("timemachine.txt") # 切割单词 words = rdd.flatMap(lambda line: line.strip().split(" ")) # 统计单词个数，过滤出现次数大于200的单词 result = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b).filter(lambda x: x[1] > 200).collect() print("timemachine.txt中出现次数超过200次的单词为：") for (word, count) in result: print(word, count) ``` 5. timemachine.txt中平均每个单词出现的次数？可以使用以下代码实现： ```python # 读取文件 rdd = sc.textFile("timemachine.txt") # 切割单词 words = rdd.flatMap(lambda line: line.strip().split(" ")) # 统计单词个数，求出现次数的总和 count_sum = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b).map(lambda x: x[1]).sum() # 统计单词个数 word_count = words.distinct().count() # 计算平均出现次数 avg_count = count_sum / word_count print("timemachine.txt中平均每个单词出现的次数为：%s" % avg_count) ```

相关推荐

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

dropbox-wordcount:Node.js 应用程序计算文件夹中编辑（写入+删除）的单词数并将它们发送到 Beeminder

Javaweb课程作业基于Hadoop的中文词频统计工具源码+使用说明.zip

java统计abc.txt文件中的单词数，行数，每个字符出现的百分比。并将结果写入result.txt文件中

wordcount openmp并行 C/C++代码，将词频统计结果按照：“单词 出现次数”的格式保存到txt文件中，将运行时间打印出来

idea已连接hdfs，现需要调用 MapReduce 对文件Hadoop.txt中各个单词出现的次数进行统计并将其结果输出到hdfs

在java中，对于给定的文件sample.txt，统计其中单词的个数，以及给定单词出现的次数。

idea已连接hdfs，现需要调用 MapReduce 对文件Hadoop.txt中各个单词出现的次数进行统计并将其结果听过idea输出到hdfs

使用java，统计一个文件（d:\\a.txt）中出现过多少单词，以a开头的单词有多少个？

3.DStream写入关系数据库 启动MySQL，创建spark数据库和wordcount数据表。将节点3发送的Socket数据，每隔10秒钟累计统计接收数据中每个单词出现次数并存入wordcount表。

在实验室环境或自己安装的hadoop环境中调用wordcount示例程序统计word.txt中的单

Java对于给定的文件sample.txt，统计其中单词的个数，以及给定单词出现的次数。

java代码，从文件outer.txt文件中统计英文单词个数，并显示结果。

对于给定的文件sample.txt，统计其中单词的个数，以及给定单词出现的次数。用java实现

java统计一个文件(d:\a.txt)中出现过多少单词,以a开头的单词有多少个?

用java统计一个文件（d:\a.txt）中出现过多少单词，以a开头的单词有多少个？

wordcount:此函数从文本文件中读取并显示最常用的单词-matlab开发

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

最新推荐

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

使用hadoop实现WordCount实验报告.docx

6-10.py

基于机器学习的入侵检测系统+源码+说明.zip

matlab基于潜在低秩表示的红外与可见光图像融合.zip

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

2． 通过python绘制y=e-xsin(2πx)图像

JSBSim Reference Manual

wordcount openmp并行 C/C++代码，将词频统计结果按照：“单词出现次数”的格式保存到txt文件中，将运行时间打印出来

3.DStream写入关系数据库启动MySQL，创建spark数据库和wordcount数据表。将节点3发送的Socket数据，每隔10秒钟累计统计接收数据中每个单词出现次数并存入wordcount表。

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

2．通过python绘制y=e-xsin(2πx)图像