python实现html转word
时间: 2023-08-10 07:09:50 浏览: 186
python语言写的将html格式文件转换为word文件
可以使用Python的`python-docx`库将HTML转换为Word文档。以下是一个简单的示例代码:
```python
from docx import Document
from docx.shared import Inches
from bs4 import BeautifulSoup
import requests
# 获取HTML内容
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 创建Word文档
document = Document()
# 遍历HTML标签并将其转换为Word格式
for tag in soup.find_all():
if tag.name == 'p':
paragraph = document.add_paragraph(tag.text)
elif tag.name == 'img':
response = requests.get(tag['src'], stream=True)
image = response.raw
paragraph = document.add_paragraph()
paragraph.add_run().add_picture(image, width=Inches(4))
elif tag.name == 'h1':
heading = document.add_heading(tag.text, level=1)
elif tag.name == 'h2':
heading = document.add_heading(tag.text, level=2)
elif tag.name == 'h3':
heading = document.add_heading(tag.text, level=3)
# 保存Word文档
document.save('output.docx')
```
这个示例代码仅支持`<p>`、`<img>`、`<h1>`、`<h2>`和`<h3>`标签,并将它们转换为Word文档的段落、图片和标题格式。如果你需要支持其他标签,可以在代码中添加相应的处理逻辑。
阅读全文