python 遍历文件夹读取word 将每一行首位去除符号,如果开头第一个字是第并替换该行的 换行符为空格,如果不是这一行没有回车换行符号,然后保存成txt
时间: 2023-12-10 08:37:13 浏览: 76
可以使用Python中的os和docx模块来实现遍历文件夹读取word文件,并对每个文件进行处理。
首先,需要安装python-docx模块,可以使用pip install python-docx命令进行安装。
下面是示例代码:
```python
import os
import docx
# 遍历文件夹
def traverse_folder(folder_path):
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith(".docx"):
file_path = os.path.join(root, file)
process_docx(file_path)
# 处理docx文件
def process_docx(file_path):
# 打开docx文件
doc = docx.Document(file_path)
# 处理每一段落
for para in doc.paragraphs:
# 去除段落首尾的符号
text = para.text.strip('.,;:!?')
# 判断开头第一个字是否为"第"
if text.startswith("第"):
# 替换换行符为空格
text = text.replace("\n", " ")
# 保存修改后的文本到段落中
para.text = text
# 保存修改后的docx文件为txt文件
file_name = os.path.splitext(file_path)[0] + ".txt"
with open(file_name, "w", encoding="utf-8") as f:
f.write(doc.text)
# 测试
if __name__ == "__main__":
folder_path = "your_folder_path"
traverse_folder(folder_path)
```
在这个示例代码中,我们首先使用os.walk函数遍历文件夹中的所有文件,然后对于每个.docx文件,使用docx模块打开文件并处理每一段落。处理过程包括去除段落首尾的符号、判断开头第一个字是否为"第"、替换换行符为空格,并保存修改后的文本到段落中。最后,我们将修改后的docx文件保存为txt文件。
阅读全文