首页代码实现：将一个1000字的已经分好词的中文txt文档中，一元字、二元字、三元字统计词频并降序输出到一个txt文档

代码实现：将一个1000字的已经分好词的中文txt文档中，一元字、二元字、三元字统计词频并降序输出到一个txt文档

时间: 2024-05-06 12:15:14 浏览: 8

以下是Python代码实现： ```python import jieba from collections import Counter # 打开文件并读取内容 with open('input.txt', 'r', encoding='utf-8') as f: content = f.read() # 将文本分词 words = jieba.lcut(content) # 统计一元字的词频 one_gram = Counter(words) # 统计二元字的词频 two_gram = Counter(zip(words[:-1], words[1:])) # 统计三元字的词频 three_gram = Counter(zip(words[:-2], words[1:-1], words[2:])) # 将词频降序排序并输出到文件 with open('output.txt', 'w', encoding='utf-8') as f: f.write('一元字词频：\n') for word, freq in one_gram.most_common(): f.write(word + '\t' + str(freq) + '\n') f.write('\n二元字词频：\n') for word, freq in two_gram.most_common(): f.write(word[0] + word[1] + '\t' + str(freq) + '\n') f.write('\n三元字词频：\n') for word, freq in three_gram.most_common(): f.write(word[0] + word[1] + word[2] + '\t' + str(freq) + '\n') ``` 以上代码中，首先使用`jieba`库将文本内容进行分词，然后使用`Counter`类统计一元字、二元字、三元字的词频。最后将结果按照降序排序并输出到指定的文件中。

最新推荐

代码实现：将一个1000字的已经分好词的中文txt文档中，一元字、二元字、三元字统计词频并降序输出到一个txt文档

相关推荐

readfile.rar_字的二元模型_拼音输入法

bianyi.rar_4 3 2 1_TXT 单词 数字

基于字的二元模型的拼音输入法

已知以下四句预料：202021、125055、120202、550521。将每个数字看做一个词，采用二元语法，计算202021125055的概率。

写一个二元文法的中文分词代码

用代码完成对一个语料库统计二元语法并用pyhanlp推断分析序列并构建词网

matplotlib安装中文字体

Image.resize（）可以只传入一个数字吗

用python 写一个用pyhanlp库统计二元语法的代码

本关任务：使用 Spark Core 知识编写一个词频统计程序

pytorch 数据集大小不同的两个二元分类网络模型和一个多元分类网络模型联合训练代码

请给个python代码：使用有输出个数限制的PSO对分类特征进行优化，并将结果以列表格式输出

写一个采用二元逻辑回归实现分类任务的python程序

设计一个Python中的类来实现二元语言模型，并完成生成文本

请用 python 指令运用二元搜寻法写出有一数组[1, 3, 5, 7, 9]，找出 数字 5 在第几个位置

介绍一下一元线性分类和二元线性分类

第一天可得一元其后二天可得二元其后三天 可得三元 用c语言

java 将文本框里的二元运算符表达式转换成后缀表达式，并显示在另一个文本框

说明以下题目的实现原理：设计一个表达式语法分析器，要求表达式支持任意标识符和常数，编写c++代码

最新推荐

Pytorch使用MNIST数据集实现CGAN和生成指定的数字方式

利用python实现PSO算法优化二元函数

VMP技术解析：Handle块优化与壳模板初始化

管理建模和仿真的文件

【进阶】音频处理基础：使用Librosa

python中字典转换成json

C++ Primer 第四版更新：现代编程风格与标准库

"互动学习：行动中的多样性与论文攻读经历"

【基础】网络编程入门：使用HTTP协议

matlab画矢量分布图

bianyi.rar_4 3 2 1_TXT 单词数字

请用 python 指令运用二元搜寻法写出有一数组[1, 3, 5, 7, 9]，找出数字 5 在第几个位置

第一天可得一元其后二天可得二元其后三天可得三元用c语言