词频统计text = input()
时间: 2024-05-02 09:23:30 浏览: 12
好的,以下是实现词频统计的代码:
```
text = input("请输入一段文本:")
words = text.split() # 将文本按空格分割成单词
freq = {} # 用字典存储单词出现的频率
# 统计每个单词出现的次数
for word in words:
if word in freq:
freq[word] += 1
else:
freq[word] = 1
# 按照单词出现的频率从高到低排序
sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
# 输出词频统计结果
print("词频统计结果:")
for item in sorted_freq:
print("{}: {}".format(item[0], item[1]))
```
该代码先让用户输入一段文本,然后使用 `split()` 方法将文本按空格分割成单词。接着,使用一个字典 `freq` 存储每个单词出现的频率,字典的键是单词,值是出现次数。然后使用 `sorted()` 函数按照单词出现的频率从高到低排序,得到一个元组列表 `sorted_freq`,元组的第一个元素是单词,第二个元素是出现次数。最后,遍历 `sorted_freq` 列表,输出每个单词的出现次数。
相关问题
水浒传词频统计python
以下是使用Python进行《水浒传》词频统计的示例代码:
```python
import jieba
from collections import Counter
# 读取文本文件
with open('input水浒传.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 去除停用词
stopwords = ['的', '了', '和', '是', '在', '他', '她', '它'] # 停用词列表,可以根据实际情况进行修改
filtered_words = [word for word in words if word not in stopwords]
# 统计词频
word_count = Counter(filtered_words)
# 输出词频结果
for word, count in word_count.most_common(10): # 只输出频率最高的10个词语
print(word, count)
```
这段代码首先使用jieba库对文本进行分词,然后去除停用词,最后使用Counter类统计词频。最后,我们输出频率最高的10个词语及其出现次数。
基于spark的词频统计实验
好的,我可以为您介绍一下基于Spark的词频统计实验。
首先,我们需要准备数据集。可以从网络上下载一份英文文本数据集,比如Gutenberg项目提供的一些免费电子书。将数据集上传到HDFS或者本地文件系统中。
接下来,我们需要编写Spark程序来进行词频统计。以下是一个简单的Scala版本代码示例:
```scala
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("Word Count")
val sc = new SparkContext(conf)
// 读取数据集
val input = sc.textFile("path/to/input")
// 进行词频统计
val counts = input
.flatMap(line => line.split("\\W+"))
.map(word => (word.toLowerCase(), 1))
.reduceByKey(_ + _)
// 输出结果
counts.saveAsTextFile("path/to/output")
sc.stop()
}
}
```
上述代码中,我们首先创建了一个SparkConf对象,设置了应用程序的名称。然后,创建了一个SparkContext对象,它是与Spark集群连接的入口点。
接下来,我们使用textFile方法读取了输入数据集。然后,使用flatMap和map方法对每个单词进行处理,将其转换为小写形式,并标记为出现一次。最后,使用reduceByKey方法对每个单词进行计数,得出词频。最终结果保存到输出路径中。
最后,我们可以在Spark集群上运行上述程序,得到词频统计的结果。
希望这个简单的示例可以帮助您实现基于Spark的词频统计实验。