用selenium库和requests库爬取潇湘书院的数据，要用到正则表达式，行动中包含获取完整数据榜单，获取h4标签，获取h2标签等 - CSDN文库

首先，需要安装selenium和requests库，可以通过以下命令进行安装： ``` pip install selenium requests ``` 然后，可以使用以下代码来爬取潇湘书院的数据： ```python import re import time import requests from selenium import webdriver # 使用Chrome浏览器驱动 driver = webdriver.Chrome() # 访问潇湘书院首页 driver.get('http://www.xxsy.net/') # 获取完整数据榜单的链接 all_data_link = driver.find_element_by_xpath('//a[@href="/bookrank/allvisit/1"]') all_data_link_url = all_data_link.get_attribute('href') # 使用requests库访问榜单页面 response = requests.get(all_data_link_url) # 使用正则表达式提取h4标签和h2标签 h4_pattern = re.compile(r'<h4>(.*?)</h4>') h4_list = h4_pattern.findall(response.text) h2_pattern = re.compile(r'<h2>(.*?)</h2>') h2_list = h2_pattern.findall(response.text) # 输出提取到的h4标签和h2标签 print(h4_list) print(h2_list) # 关闭浏览器 driver.quit() ``` 这段代码首先通过selenium库访问潇湘书院首页，获取完整数据榜单的链接，然后使用requests库访问榜单页面，使用正则表达式提取页面中的h4标签和h2标签，最后输出提取到的结果。注意，在使用selenium库访问页面时，需要等待页面完全加载完成之后才能进行后续操作，这里使用了time库来进行等待。

阅读全文

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通