Python合并多个TXT文件并统计词频的实现_Python实现读取多个excel;以及统计词频；使用词典 - CSDN文库

合并多个TXT

161 浏览量更新于2023-03-16 评论收藏 70KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Python 合并多个合并多个TXT文件并统计词频的实现文件并统计词频的实现

主要介绍了Python 合并多个TXT文件并统计词频的实现，文中通过示例代码介绍的非常详细，对大家的学习或

者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

需求是：针对三篇英文文章进行分析，计算出现次数最多的 10 个单词

逻辑很清晰简单，不算难，使用 python 读取多个 txt 文件，将文件的内容写入新的 txt 中，然后对新 txt 文件进行词频统计，

得到最终结果。

代码如下：(在Windows 10，Python 3.7.4环境下运行通过)

# coding=utf-8

import re

import os

# 获取源文件夹的路径下的所有文件

sourceFileDir = 'D:\Python\txt\'

filenames = os.listdir(sourceFileDir)

# 打开当前目录下的 result.txt 文件，如果没有则创建

# 文件也可以是其他类型的格式，如 result.js

file = open('D:\Python\result.txt', 'w')

# 遍历文件

for filename in filenames:

filepath = sourceFileDir+'\'+filename

# 遍历单个文件，读取行数，写入内容

for line in open(filepath):

file.writelines(line)

file.write('')

# 关闭文件

file.close()

# 获取单词函数定义

def getTxt():

txt = open('result.txt').read()

txt = txt.lower()

txt = txt.replace(''', '\'')

# !"@#$%^&*()+,-./:;<=>?@[\]_`~{|}

for ch in '!"'@#$%^&*()+,-/:;<=>?@[\]_`~{|}':

txt.replace(ch, ' ')

return txt

# 1.获取单词

hamletTxt = getTxt()

# 2.切割为列表格式，'' 兼容符号错误情况，只保留英文单词

txtArr = re.findall('[a-z\''A-Z]+', hamletTxt)

# 3.去除所有遍历统计

counts = {}

for word in txtArr:

# 去掉一些常见无价值词

forbinArr = ['a.', 'the', 'a', 'i']

if word not in forbinArr:

counts[word] = counts.get(word, 0) + 1

# 4.转换格式，方便打印，将字典转换为列表，次数按从大到小排序

countsList = list(counts.items())

countsList.sort(key=lambda x: x[1], reverse=True)

# 5. 输出结果

for i in range(10):

word, count = countsList[i]

print('{0:<10}{1:>5}'.format(word, count))

效果如下图：

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论0

weixin_38647517

粉丝: 2
资源: 965

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈