实验内容：统计timemachine.txt文件里的所有单词出现的次数，将统计结果写入到mysql中的wordCount表中。wordCount表结构为id word count，其中id为主键，word为单词，count为出现次数。具体内容：在mysql中新建spark数据库，在spark数据库中创建表wordCount 在wordCount表中插入一条标记数据(如下图) 编写代码，并运行编写的代码，将统计数据写入数据库在mysql命令行查询wordCount表中的数据数量在mysql命令行中验证是否有非法单词（select * from wordCount where word like '%\'%'）使用pyspark，连接数据库，完成下列操作 timemachine.txt中一共有多少个单词(参考课本106页) timemachine.txt中一共出现过多少个单词 timemachine.txt中出现次数最多的10个单词 timemachine.txt中出现次数超过200次的单词 timemachine.txt中平均每个单词出现的次数

时间: 2024-03-23 08:37:50 浏览: 95

好的，以下是参考代码实现： ```python from pyspark.sql import SparkSession import re # 创建SparkSession对象 spark = SparkSession.builder.appName("Word Count").getOrCreate() # 读取文件并转化为RDD对象 lines = spark.sparkContext.textFile("timemachine.txt") # 定义函数，用于清洗单词 def clean_word(word): return re.sub(r'[\W_]+', '', word).lower() # 对读入的数据进行清洗和处理，得到单词列表 words = lines.flatMap(lambda line: line.split(" ")).map(clean_word) # 统计每个单词出现的次数，并将结果存储在一个字典中 word_counts = words.countByValue() # 将字典中的键值对逐一插入到MySQL数据库的wordCount表中，其中id为自增主键 def save_to_mysql(key_value): import pymysql conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() sql = "INSERT INTO wordCount (word, count) VALUES (%s, %s)" cursor.execute(sql, (key_value[0], key_value[1])) conn.commit() cursor.close() conn.close() for key_value in word_counts.items(): save_to_mysql(key_value) # 查询wordCount表中的数据数量 import pymysql conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT COUNT(*) FROM wordCount") count = cursor.fetchone()[0] print("wordCount表中的数据数量为：", count) cursor.close() conn.close() # 查询wordCount表中有多少个单词 conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT COUNT(DISTINCT word) FROM wordCount") count = cursor.fetchone()[0] print("timemachine.txt中一共有", count, "个单词") cursor.close() conn.close() # 查询wordCount表中一共出现过多少个单词 conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT SUM(count) FROM wordCount") count = cursor.fetchone()[0] print("timemachine.txt中一共出现过", count, "个单词") cursor.close() conn.close() # 查询wordCount表中出现次数最多的10个单词 conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT word, count FROM wordCount ORDER BY count DESC LIMIT 10") results = cursor.fetchall() print("出现次数最多的10个单词为：") for result in results: print(result[0], result[1]) cursor.close() conn.close() # 查询wordCount表中出现次数超过200次的单词 conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT word, count FROM wordCount WHERE count > 200") results = cursor.fetchall() print("出现次数超过200次的单词为：") for result in results: print(result[0], result[1]) cursor.close() conn.close() # 查询timemachine.txt中平均每个单词出现的次数 conn = pymysql.connect(host='localhost', user='root', password='123456', database='spark') cursor = conn.cursor() cursor.execute("SELECT AVG(count) FROM wordCount") count = cursor.fetchone()[0] print("timemachine.txt中平均每个单词出现的次数为：", count) cursor.close() conn.close() ``` 需要注意的是，需要提前在MySQL中创建好spark数据库和wordCount表，并插入一条标记数据，以便程序能够正确地执行。

阅读全文

相关推荐

【Spark资源】Spark单词统计实验.pdf

Spark学习---统计文件单词出现次数

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

java统计abc.txt文件中的单词数，行数，每个字符出现的百分比。并将结果写入result.txt文件中

使用java，统计一个文件（d:\\a.txt）中出现过多少单词，以a开头的单词有多少个？

3.DStream写入关系数据库 启动MySQL，创建spark数据库和wordcount数据表。将节点3发送的Socket数据，每隔10秒钟累计统计接收数据中每个单词出现次数并存入wordcount表。

java编写一个程序 统计文本文件中的字符数_文件内容统计：对任意给定的.txt文件进行内容的字符数、行数、单词数进行统计...

Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class WordCount$IntSumReducer not found

wordcount openmp并行 C/C++代码，将词频统计结果按照：“单词 出现次数”的格式保存到txt文件中，将运行时间打印出来

hadoop jar ~/hadoop2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount hdfs://10.0.2.15:9000/words.txt hdfs://10.0.2.15:9000/out JAR does not exist or is not a normal file: /home/datasci/hadoop2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar

idea已连接hdfs，现需要调用 MapReduce 对文件Hadoop.txt中各个单词出现的次数进行统计并将其结果输出到hdfs

编写一个程序，读取一个文本文件的内容，统计文件中每个单词的出现次数，并将结果写入到一个新的文本文件中c++

基于freeRTOS和STM32F103x的手机远程控制浴室温度系统设计源码

最新推荐

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

使用hadoop实现WordCount实验报告.docx

基于freeRTOS和STM32F103x的手机远程控制浴室温度系统设计源码

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案

3.DStream写入关系数据库启动MySQL，创建spark数据库和wordcount数据表。将节点3发送的Socket数据，每隔10秒钟累计统计接收数据中每个单词出现次数并存入wordcount表。

java编写一个程序统计文本文件中的字符数_文件内容统计：对任意给定的.txt文件进行内容的字符数、行数、单词数进行统计...

wordcount openmp并行 C/C++代码，将词频统计结果按照：“单词出现次数”的格式保存到txt文件中，将运行时间打印出来

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx