首页爬取并下载当当网某本书的网页内容，并保存为HTML格式

爬取并下载当当网某本书的网页内容，并保存为HTML格式

时间: 2023-06-20 16:05:01 浏览: 198

您可以使用Python中的requests和beautifulsoup4库来爬取并解析当当网的网页内容，并使用Python中的html模块将其保存为HTML格式的文件。以下是一个示例代码： ```python import requests from bs4 import BeautifulSoup import html # 要爬取的书籍页面 url = "http://product.dangdang.com/1007302473.html" # 发送GET请求获取页面内容 response = requests.get(url) response.encoding = 'utf-8' # 使用BeautifulSoup解析页面内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取页面主体内容 main_content = soup.find('div', {'class': 'show_info'}) # 将页面主体内容保存为HTML文件 with open('book.html', 'w', encoding='utf-8') as f: f.write(html.unescape(str(main_content))) ``` 在这个示例代码中，首先使用requests库发送GET请求获取页面内容，并使用beautifulsoup4库解析页面内容。然后，使用html模块将页面主体内容保存为HTML文件。请注意，由于爬取的内容中可能包含特殊字符，因此在保存HTML文件时，我们使用了html.unescape()方法对其进行了解码。

阅读全文