python爬虫使用selenium同时爬取子网页标题和网址
时间: 2023-05-25 07:07:07 浏览: 294
python爬虫利用selenium爬取淘宝和京东商品信息
以下是使用selenium和BeautifulSoup4库来爬取子网页标题和网址的示例代码:
```python
from selenium import webdriver
from bs4 import BeautifulSoup
# 设置 Chrome 浏览器的位置
chrome_driver_path = "/path/to/chromedriver"
# 创建一个浏览器实例
driver = webdriver.Chrome(chrome_driver_path)
# 导航到目标网页
driver.get("https://www.example.com")
# 使用 BeautifulSoup 将页面源代码解析为 HTML
soup = BeautifulSoup(driver.page_source, "html.parser")
# 获取页面上的所有链接
links = soup.find_all("a")
# 遍历链接列表
for link in links:
# 获取链接的 URL
url = link.get("href")
# 如果链接为空或者已经包含 "http",则跳过这个链接
if not url or "http" in url:
continue
# 在链接前面添加目标网站的域名,形成完整的 URL
url = "https://www.example.com" + url
# 导航到链接地址
driver.get(url)
# 使用 BeautifulSoup 解析子页面的源代码
sub_soup = BeautifulSoup(driver.page_source, "html.parser")
# 获取子页面的标题
title = sub_soup.title.string
# 输出子页面的标题和链接
print(title, url)
# 关闭浏览器实例
driver.quit()
```
此示例中,我们首先使用 `webdriver.Chrome` 方法创建了一个 Chrome 浏览器实例,然后导航到目标网页。接着,我们使用 BeautifulSoup4 解析了页面源代码,并获取了页面上的所有链接。然后,我们遍历所有链接,并使用 `driver.get` 方法导航到每个链接所对应的网页。在每个子页面上,我们使用 BeautifulSoup4 获取页面的标题,并输出子页面的标题和链接。最后,我们使用 `driver.quit` 方法关闭了浏览器实例。
阅读全文