爬取人民邮电出版社(网址为:https://www.ptpress.com.cn)页面图书价格,生成GET请求并打印出状态码和页面文本信息
时间: 2023-11-30 08:05:14 浏览: 373
从china-pub 抓取图书价格
好的,我们可以使用 Python 中的 `requests` 和 `BeautifulSoup` 库来实现该功能。先使用 `requests` 库发送 GET 请求,然后使用 `BeautifulSoup` 库解析 HTML 页面,提取出我们需要的数据。
请先在命令行中输入以下命令安装 `requests` 和 `BeautifulSoup` 库:
```
pip install requests beautifulsoup4
```
安装完成后,可以使用以下 Python 代码实现你的需求:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.ptpress.com.cn'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有图书信息所在的 li 标签
book_list = soup.find_all('li', class_='col-md-2 col-sm-3 col-xs-4')
# 遍历每个图书信息 li 标签
for li in book_list:
# 提取图书名称和价格
name = li.find('h5', class_='title').text.strip()
price = li.find('p', class_='price').text.strip()
# 打印出图书名称和价格
print('名称:', name)
print('价格:', price)
# 打印出状态码和页面文本信息
print('状态码:', response.status_code)
print('页面文本信息:', response.text)
```
在这个代码中,我们先使用 `requests` 库中的 `get()` 方法发送一个 GET 请求,获取 https://www.ptpress.com.cn 的首页页面信息。
然后,我们使用 `BeautifulSoup` 库解析 HTML 页面,并找到所有图书信息所在的 `li` 标签。遍历每个图书信息 `li` 标签,提取图书名称和价格,并打印出来。
最后,我们使用 `print()` 函数打印出状态码和页面文本信息。
注意,本示例代码中的 URL 是一个有效的链接,但并不保证在未来一直有效。如果需要爬取其他网站或页面,请将 `url` 变量替换为相应的链接。
阅读全文