用selenium库和requests库爬取潇湘书院的数据,要用到正则表达式,行动中包含获取完整数据榜单,获取h4标签,获取h2标签等
时间: 2024-04-03 13:35:45 浏览: 59
首先,需要安装selenium和requests库,可以通过以下命令进行安装:
```
pip install selenium requests
```
然后,可以使用以下代码来爬取潇湘书院的数据:
```python
import re
import time
import requests
from selenium import webdriver
# 使用Chrome浏览器驱动
driver = webdriver.Chrome()
# 访问潇湘书院首页
driver.get('http://www.xxsy.net/')
# 获取完整数据榜单的链接
all_data_link = driver.find_element_by_xpath('//a[@href="/bookrank/allvisit/1"]')
all_data_link_url = all_data_link.get_attribute('href')
# 使用requests库访问榜单页面
response = requests.get(all_data_link_url)
# 使用正则表达式提取h4标签和h2标签
h4_pattern = re.compile(r'<h4>(.*?)</h4>')
h4_list = h4_pattern.findall(response.text)
h2_pattern = re.compile(r'<h2>(.*?)</h2>')
h2_list = h2_pattern.findall(response.text)
# 输出提取到的h4标签和h2标签
print(h4_list)
print(h2_list)
# 关闭浏览器
driver.quit()
```
这段代码首先通过selenium库访问潇湘书院首页,获取完整数据榜单的链接,然后使用requests库访问榜单页面,使用正则表达式提取页面中的h4标签和h2标签,最后输出提取到的结果。注意,在使用selenium库访问页面时,需要等待页面完全加载完成之后才能进行后续操作,这里使用了time库来进行等待。
阅读全文