文本文件为空：import docx2txt import re # 读取docx文件内容 text = docx2txt.process("example.docx") # 使用正则表达式匹配文本中以数字和符号.开头到答案加大写英文字母结束的内容保存为列表 pattern = r'\d+\.\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+' result = {} for item in re.findall(pattern, text): result[item] = None # 将去重后的内容写入新的文本文件 with open("example_output.txt", "w", encoding="utf-8") as f: f.write('\n'.join(result.keys()))

时间: 2023-10-03 09:09:17 浏览: 90

可能是因为文本中没有符合正则表达式的内容，导致result字典为空。你可以添加一些代码来判断result字典是否为空，如果为空则输出相应的提示信息。代码如下： ``` import docx2txt import re # 读取docx文件内容 text = docx2txt.process("example.docx") # 使用正则表达式匹配文本中以数字和符号.开头到答案加大写英文字母结束的内容保存为列表 pattern = r'\d+\.\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+' result = {} for item in re.findall(pattern, text): result[item] = None # 判断result字典是否为空 if not result: print("没有匹配到符合条件的内容！") else: # 将去重后的内容写入新的文本文件 with open("example_output.txt", "w", encoding="utf-8") as f: f.write('\n'.join(result.keys())) ``` 这样当result字典为空时，程序会输出"没有匹配到符合条件的内容！"，提醒用户文件中没有符合条件的内容。

优化代码：import docx2txt import re # 读取docx文件内容 text = docx2txt.process("example.docx") # 将内容写入文本文件 with open("example.txt", "w", encoding="utf-8") as f: f.write(text) # 读取文本文件内容 with open("example.txt", "r", encoding="utf-8") as f: lines = f.readlines() # 使用正则表达式匹配文本中以数字和符号.开头到答案加大写英文字母结束的内容并去重 pattern = r'\d+\.\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+' result = re.findall(pattern, text) result = list(set(result)) print(result) # 将去重后的内容重新写入文本文件 with open("example.txt", "w", encoding="utf-8") as f: f.writelines(result)

可以考虑将代码优化为一次性读取docx文件，并且将匹配结果直接写入新的文本文件，避免先写入一次文本文件再读取一次的操作。代码如下： ``` import docx2txt import re # 读取docx文件内容 text = docx2txt.process("example.docx") # 使用正则表达式匹配文本中以数字和符号.开头到答案加大写英文字母结束的内容并去重 pattern = r'\d+\.\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+' result = list(set(re.findall(pattern, text))) # 将去重后的内容写入新的文本文件 with open("example_output.txt", "w", encoding="utf-8") as f: f.write('\n'.join(result)) ``` 这样可以避免不必要的IO操作，并且将结果直接写入新的文本文件。

阅读全文

相关推荐

docx2txt:将 DOCX 文件转换为文本

.doc文件批量转换为.docx

selenium读取txt,xls,csv.docx

docx2txt:将 docx 转换为 txt

2015年河南省考面试资料：公务员面试技巧.docx#资源达人分享计划#

工程编号：.docx

docx-templates:.docx 的简单模板引擎

matlab中如何读取文本文件.docx

企业税务自查报告范文一： .docx

食品企业自查报告范文一： .docx

天通过职称计算机考试：.docx

MATLAB使用文本文件.docx

ExtractEmailFromPDF:从.pdf | .txt | .docx之类的文本文件中获取电子邮件和电话号码

docx-html:将 .docx 文件转换为 html

C++中Txt文件读取和写入.docx

网易视频云：支持redis节点高可用的twem.docx#资源达人分享计划#

MATLAB对文本文件(.txt)进行数据存取.docx

PHP直播源码-为什么直播源码开发要选择PHP.docx#资源达人分享计划#

python-docx-template:使用docx作为jinja2模板

大家在看

petrel教程

CST画旋转体.pdf

PDP上下文激活-启动-网络基础原理

上海松江9000系列设备说明及调试

论文研究-基于IEEE802.15.4协议的CSMA/CA机制的改进 .pdf

最新推荐

Linux下xlsx文件转txt文件.docx

使用acrobat创建PDF时，不支持docx、doc等Microsoft Office文件时的解决方法.docx

python-docx文件定位读取过程(尝试替换)

基于Python获取docx/doc文件内容代码解析

python实现生成Word、docx文件的方法分析

AkariBot-Core：可爱AI机器人实现与集成指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

switch语句和for语句的区别和使用方法

易语言实现程序启动限制的源码示例