如何通过python合并多个网页并生成目录
时间: 2023-12-07 19:05:34 浏览: 28
可以使用Python中的BeautifulSoup和requests库来实现合并多个网页并生成目录的功能。
以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义要合并的多个网页的URL列表
urls = ['https://www.example.com/page1', 'https://www.example.com/page2', 'https://www.example.com/page3']
# 定义目录的初始内容
toc = '<ul>'
# 遍历每个网页的URL,获取网页内容并添加到目录中
for url in urls:
# 使用requests库获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取网页标题和正文内容
title = soup.title.string
content = str(soup.body)
# 在目录中添加当前网页的标题和链接
toc += '<li><a href="#{0}">{1}</a></li>'.format(title, title)
# 在正文中添加当前网页的标题和内容
content = '<h2 id="{0}">{1}</h2>'.format(title, title) + content
toc += content
# 结束目录标签
toc += '</ul>'
# 将目录写入HTML文件
with open('merged.html', 'w') as f:
f.write(toc)
```
这段代码将会遍历每个网页的URL,获取网页标题和正文内容,并将它们添加到一个HTML文件中。在HTML文件中,每个网页的标题会被添加到一个目录中,同时每个网页的正文内容也会被添加到HTML文件中。