python检查word文档的连续重复字,例如“用户的的资料”或“需要需要用户输入”之类的情况.(使用两种方法,其中一种为正则表达式)
时间: 2024-03-17 21:46:54 浏览: 14
好的,针对您的问题,我可以提供两种方法:
方法一:使用字符串处理
1.读取Word文档内容:
```
import docx
doc = docx.Document("your_doc.docx")
content = ""
for para in doc.paragraphs:
content += para.text
```
2.查找连续重复字:
```
def find_repeated_words(content):
repeated_words = []
words = content.split()
for i in range(1, len(words)):
if words[i] == words[i-1]:
if words[i] not in repeated_words:
repeated_words.append(words[i])
return repeated_words
```
方法二:使用正则表达式
1.读取Word文档内容:
```
import docx
doc = docx.Document("your_doc.docx")
content = ""
for para in doc.paragraphs:
content += para.text
```
2.查找连续重复字:
```
import re
def find_repeated_words(content):
pattern = re.compile(r'\b(\w+)\s+\1\b')
repeated_words = pattern.findall(content)
return repeated_words
```
以上是两种Python检查Word文档的连续重复字的方法,您可以根据实际情况选择其中一种进行使用。