爬取并下载当当网某本书的网页内容,并保存为HTML格式
时间: 2023-06-20 16:05:01 浏览: 198
您可以使用Python中的requests和beautifulsoup4库来爬取并解析当当网的网页内容,并使用Python中的html模块将其保存为HTML格式的文件。
以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import html
# 要爬取的书籍页面
url = "http://product.dangdang.com/1007302473.html"
# 发送GET请求获取页面内容
response = requests.get(url)
response.encoding = 'utf-8'
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面主体内容
main_content = soup.find('div', {'class': 'show_info'})
# 将页面主体内容保存为HTML文件
with open('book.html', 'w', encoding='utf-8') as f:
f.write(html.unescape(str(main_content)))
```
在这个示例代码中,首先使用requests库发送GET请求获取页面内容,并使用beautifulsoup4库解析页面内容。然后,使用html模块将页面主体内容保存为HTML文件。请注意,由于爬取的内容中可能包含特殊字符,因此在保存HTML文件时,我们使用了html.unescape()方法对其进行了解码。
阅读全文