python编写代码检查word文档的连续重复字,例如“用户的的资料”或“需要需要用户输入”之类的情况.(使用两种方法,其中一种为正则表达式)
时间: 2024-03-17 18:46:40 浏览: 63
方法一:使用正则表达式
```python
import re
import docx
# 读取word文档
doc = docx.Document('example.docx')
# 定义正则表达式查找连续重复字
regex = re.compile(r'(\b\w+\b)\s+\1')
# 遍历文档中的段落
for para in doc.paragraphs:
# 查找段落中的连续重复字
matches = regex.findall(para.text)
# 输出结果
if matches:
print(f"In paragraph '{para.text}', found repeated words: {', '.join(matches)}")
```
方法二:不使用正则表达式
```python
import docx
# 读取word文档
doc = docx.Document('example.docx')
# 定义函数查找连续重复字
def find_repeated_words(text):
words = text.split()
repeated_words = []
for i in range(len(words) - 1):
if words[i] == words[i + 1]:
if words[i] not in repeated_words:
repeated_words.append(words[i])
return repeated_words
# 遍历文档中的段落
for para in doc.paragraphs:
# 查找段落中的连续重复字
repeated_words = find_repeated_words(para.text)
# 输出结果
if repeated_words:
print(f"In paragraph '{para.text}', found repeated words: {', '.join(repeated_words)}")
```
说明:
以上代码中,`example.docx` 是要检查的word文档,可以根据实际情况修改文件名。第一个方法使用正则表达式查找连续重复字,第二个方法则是不使用正则表达式,自己编写函数查找连续重复字。两种方法输出的结果相同。
阅读全文