首页将word文本文件导入python，文件地址为C:\Users\Admin\Desktop\三国演义.docx，用jieba实现词频统计，输出前10个频率最高的词

将word文本文件导入python，文件地址为C:\Users\Admin\Desktop\三国演义.docx，用jieba实现词频统计，输出前10个频率最高的词

时间: 2023-10-28 09:04:05 浏览: 106

首先需要安装python-docx库和jieba库，可以在命令行中输入以下命令安装： ``` pip install python-docx pip install jieba ``` 然后可以使用以下代码实现读取word文本文件并进行词频统计： ```python import docx import jieba # 读取word文本文件 doc = docx.Document(r'C:\Users\Admin\Desktop\三国演义.docx') # 初始化词频统计字典 word_freq = {} # 遍历每个段落 for para in doc.paragraphs: # 分词并统计词频 words = jieba.lcut(para.text) for word in words: if len(word) > 1: word_freq[word] = word_freq.get(word, 0) + 1 # 输出前10个频率最高的词 top_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:10] for word, freq in top_words: print(word, freq) ``` 其中，使用python-docx库读取word文本文件，使用jieba库进行分词和词频统计。由于文本量较大，建议使用并行分词来提高效率，可以使用jieba的并行分词模式： ```python import docx import jieba import multiprocessing # 读取word文本文件 doc = docx.Document(r'C:\Users\Admin\Desktop\三国演义.docx') # 初始化词频统计字典 word_freq = multiprocessing.Manager().dict() # 定义并行分词函数 def parallel_cut(para): words = jieba.lcut(para.text) for word in words: if len(word) > 1: word_freq[word] = word_freq.get(word, 0) + 1 # 多进程分词 pool = multiprocessing.Pool() pool.map(parallel_cut, doc.paragraphs) pool.close() pool.join() # 输出前10个频率最高的词 top_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:10] for word, freq in top_words: print(word, freq) ```

阅读全文

大家在看

煤矿井下图像型早期火灾探测

针对煤矿井下传统火灾探测方法的不足,提出了一种基于图像型的火灾探测方法,阐述了对所获取的红外图像进行预处理、特征提取和火灾识别的过程。根据早期火灾的特点,通过提取图像序列中多个参数的火灾信息,并将量化后的火灾特征值输入支持向量机,对支持向量机进行分类器训练,再利用训练好的分类器对火灾和干扰物进行分类识别。实验结果表明:该方法探测正确率高,误判率低,抗干扰能力强,对于小样本的非线性分类问题效果较好。该研究成果对煤矿外因火灾的预防具有一定实际意义。

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

SAP各模块字段与表对应在个模块的关系以及描述

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

Cadence Allegro16.6高级进阶教程主要是关于PCB layout设计的应用教程。

最新推荐

将word文本文件导入python，文件地址为C:\Users\Admin\Desktop\三国演义.docx，用jieba实现词频统计，输出前10个频率最高的词

相关推荐

用Python中的jieba对文章进行词频统计

基于python的三国演义词频分析

统计指定的文本文件（英文）中，每个单词的出现频率，输出按字典序排列的单词频度表。

编程选择题40道：C语言文件操作：读写与处理.Tex.docx

python-docx-reader:一个时髦的 Python .docx 阅读器

Appium：Appium与Python编程基础.docx

Airflow：Airflow与Python集成开发.docx

Python版 数据挖掘实验6报告：用神经网络破解验证码.docx

人工智能和机器学习之回归算法：岭回归：使用Python实现岭回归.docx

人工智能和机器学习之分类算法：随机森林：使用Python实现随机森林.docx

mhtdoc-to-html:将Altchunks Word文档（.docx文件）转换为HTML格式

6本Python入门书籍推荐：0基础到项目实践.docx

DuckX：C++库实现Microsoft Word .docx文件快速操作

htlatex-示例：用于LaTeX到Word（.docx）文件转换的htlatex演示

ERP系统信息化资料:WBS主数据导入程序.docx

人工智能和机器学习之关联规则学习算法：Eclat算法：Eclat算法的实现细节.docx

Python中文词频统计.docx

mammoth.js:将Word文档（.docx文件）转换为HTML

使用C语言实现文件的读写操作方法.docx

基于Python的《三国演义》文本分析开题报告.docx

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

python实现生成Word、docx文件的方法分析

python实现pdf转换成word/txt纯文本文件

基于python的docx模块处理word和WPS的docx格式文件方式

用python爬取网页并导出为word文档.docx

基于hadoop的词频统计.docx

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Python版数据挖掘实验6报告：用神经网络破解验证码.docx