python将word文档内容按空行分割
时间: 2024-02-11 17:24:16 浏览: 25
你可以使用 Python 的 `python-docx` 库来读取 Word 文档,并按空行分割文档内容。首先,确保你已经安装了该库。你可以使用以下命令来安装它:
```
pip install python-docx
```
接下来,你可以使用以下代码实现按空行分割 Word 文档内容:
```python
from docx import Document
def split_document_by_empty_lines(file_path):
doc = Document(file_path)
paragraphs = [p.text for p in doc.paragraphs]
split_paragraphs = [[]]
for paragraph in paragraphs:
if paragraph.strip() == "":
split_paragraphs.append([])
else:
split_paragraphs[-1].append(paragraph)
return split_paragraphs
# 替换为你的 Word 文档路径
file_path = 'path/to/your/document.docx'
split_paragraphs = split_document_by_empty_lines(file_path)
# 打印每个分割后的段落内容
for i, paragraphs in enumerate(split_paragraphs, start=1):
print(f"分割段落 {i}:")
for paragraph in paragraphs:
print(paragraph)
print()
```
这段代码中,我们首先读取 Word 文档的所有段落,并将它们存储在一个列表中。然后,我们遍历每个段落,如果该段落为空行,则创建一个新的列表作为下一个分割点;否则,将当前段落添加到最后一个分割点中。最后,我们返回一个嵌套列表,其中每个子列表包含一个分割后的段落内容。
请确保将 `file_path` 替换为你的 Word 文档的实际路径。运行代码后,它将打印出每个分割后的段落内容。