如何用Python爬取html文件中的所有链接并且保存为html文件
时间: 2023-01-31 15:54:56 浏览: 100
首先,您需要使用 Python 中的网络库(如 `urllib` 或 `requests`)来获取要爬取的网页的 HTML 代码。
然后,您可以使用 HTML 解析库(如 `BeautifulSoup`)来解析 HTML 代码,并提取所有链接。
具体来说,您可以这样做:
```python
import requests
from bs4 import BeautifulSoup
# 获取网页 HTML 代码
url = 'http://example.com'
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析 HTML 代码
soup = BeautifulSoup(html, 'html.parser')
# 提取所有链接
links = []
for link in soup.find_all('a'):
links.append(link.get('href'))
# 保存链接到 HTML 文件
with open('links.html', 'w') as f:
for link in links:
f.write('<a href="%s">%s</a>\n' % (link, link))
```
在这段代码中,我们使用 `requests` 库获取网页的 HTML 代码,然后使用 `BeautifulSoup` 解析 HTML 代码。接下来,我们使用 `soup.find_all('a')` 来查找所有的链接标签(`<a>`),并使用 `link.get('href')` 来获取链接地址。最后,我们使用 Python 的文件操作函数将这些链接保存到 HTML 文件中。
阅读全文