使用Python和Selenium库编一个脚本,针对特定网页前10页的页面标题进行抓取
时间: 2024-10-20 07:09:23 浏览: 21
Python-Webscraping:一组用于从网站上抓取数据的 Python 脚本。 这些脚本使用 Selenium、Scrapy、Requests 和 JSON 库
在Python中,我们可以使用Selenium库配合BeautifulSoup或者正则表达式来实现网页标题的抓取。Selenium主要用于浏览器自动化,而BeautifulSoup用于解析HTML。下面是一个简单的示例,演示如何获取前10页的页面标题:
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
# 初始化Chrome浏览器
driver = webdriver.Chrome()
# 网页URL的列表,这里我们仅创建到第10页的基本循环
urls = [f"https://www.example.com/page{page}" for page in range(1, 11)]
for url in urls:
# 访问页面
driver.get(url)
# 等待页面加载完成(可以根据实际情况调整等待时间)
driver.implicitly_wait(5) # 单位秒
# 获取页面源码
page_source = driver.page_source
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(page_source, 'html.parser')
# 找到标题元素,通常在`<title>`标签中
title = soup.find('title').text
# 打印或保存标题
print(f"Page {url}: {title}")
# 关闭浏览器
driver.quit()
阅读全文