用Selenium库爬取潇湘书院全部作品页面中的h4标签，用正则表达式爬取页面中h2标签 - CSDN文库

可以使用以下代码来爬取潇湘书院全部作品页面中的h4标签和h2标签： ```python import re import time from selenium import webdriver # 使用Chrome浏览器驱动 driver = webdriver.Chrome() # 访问潇湘书院全部作品页面 driver.get('http://www.xxsy.net/partner/all.html') # 等待页面加载完成 time.sleep(5) # 使用正则表达式提取页面中的h4标签和h2标签 h4_pattern = re.compile(r'<h4>(.*?)</h4>') h4_list = h4_pattern.findall(driver.page_source) h2_pattern = re.compile(r'<h2>(.*?)</h2>') h2_list = h2_pattern.findall(driver.page_source) # 输出提取到的h4标签和h2标签 print(h4_list) print(h2_list) # 关闭浏览器 driver.quit() ``` 这段代码首先使用selenium库访问潇湘书院全部作品页面，然后使用time库等待页面加载完成。接着，使用正则表达式提取页面中的h4标签和h2标签，并输出提取到的结果。注意，在使用selenium库访问页面时，需要等待页面完全加载完成之后才能进行后续操作，这里使用了time库来进行等待。

阅读全文

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通