用Selenium库爬取潇湘书院全部作品页面中的h4标签,用正则表达式爬取页面中h2标签
时间: 2024-04-03 12:35:35 浏览: 72
正则表达式获取HTML标签内容
可以使用以下代码来爬取潇湘书院全部作品页面中的h4标签和h2标签:
```python
import re
import time
from selenium import webdriver
# 使用Chrome浏览器驱动
driver = webdriver.Chrome()
# 访问潇湘书院全部作品页面
driver.get('http://www.xxsy.net/partner/all.html')
# 等待页面加载完成
time.sleep(5)
# 使用正则表达式提取页面中的h4标签和h2标签
h4_pattern = re.compile(r'<h4>(.*?)</h4>')
h4_list = h4_pattern.findall(driver.page_source)
h2_pattern = re.compile(r'<h2>(.*?)</h2>')
h2_list = h2_pattern.findall(driver.page_source)
# 输出提取到的h4标签和h2标签
print(h4_list)
print(h2_list)
# 关闭浏览器
driver.quit()
```
这段代码首先使用selenium库访问潇湘书院全部作品页面,然后使用time库等待页面加载完成。接着,使用正则表达式提取页面中的h4标签和h2标签,并输出提取到的结果。注意,在使用selenium库访问页面时,需要等待页面完全加载完成之后才能进行后续操作,这里使用了time库来进行等待。
阅读全文