selenium 获取页数

时间: 2023-11-12 08:05:57 浏览: 243

Python Selenium自动化获取页面信息的方法

5星 · 资源好评率100%

1.获取页面title title：获取当前页面的标题显示的字段 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') #打印网页标题 print(browser.title) #输出内容：百度一下，你就知道 2.获取页面URL current_url：获取当前页面的URL from selenium import webdriver import time browser = webdriver.Chrome( Python Selenium 是一个强大的Web自动化测试工具，它允许程序员模拟用户行为，例如点击、滚动、填写表单等。本文将详细讲解如何使用Selenium自动化获取页面信息，并提供一系列实用的示例。 1. 获取页面标题要获取当前页面的标题，可以使用`browser.title`属性。以下是一个简单的例子： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 打印网页标题 print(browser.title) ``` 在这个例子中，`browser.get('https://www.baidu.com')`用来导航到百度首页，然后`browser.title`将打印出页面的标题，即"百度一下，你就知道"。 2. 获取页面URL 获取当前页面的URL，可以使用`browser.current_url`属性，如下所示： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 打印网页URL print(browser.current_url) ``` 这将输出页面的完整URL，如"https://www.baidu.com/"。 3. 获取浏览器版本号要查看正在使用的浏览器的版本，可以利用`browser.capabilities['version']`： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 打印浏览器版本 print(browser.capabilities['version']) ``` 4. 获取元素尺寸使用`element.size`属性可以获取HTML元素的尺寸，包括高度和宽度： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 定位输入框 input_box = browser.find_element_by_id('kw') # 打印输入框尺寸 print(input_box.size) ``` 这将输出元素的尺寸，如`{'height': 22, 'width': 500}`。 5. 获取元素的文本若要获取HTML元素的文本内容，可以使用`element.text`： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') # 定位备案元素 recordcode = browser.find_element_by_id('jgwab') # 打印备案元素信息 print(recordcode.text) ``` 这将打印出元素内的文本信息，例如在百度首页的备案号。 6. 获得属性值通过调用`element.get_attribute('attribute_name')`可以获取元素的任意属性值，如`href`或`id`： ```python from selenium import webdriver import time driver = webdriver.Chrome() driver.maximize_window() driver.implicitly_wait(6) driver.get("https://www.baidu.com") time.sleep(1) for link in driver.find_elements_by_xpath("//*[@href]"): print(link.get_attribute('href')) driver.quit() ``` 这段代码将打印出页面上所有具有`href`属性的链接的URL。 Selenium提供了丰富的API，使得我们可以进行更复杂的交互，如模拟点击、拖拽、填写表单、处理弹出窗口等。同时，结合其他Python库，如BeautifulSoup或Requests，可以构建更强大的自动化测试和数据抓取脚本。不过，需要注意的是，进行网页自动化操作时，应尊重网站的robots.txt规则，避免对服务器造成不必要的压力。

根据提供的引用内容，selenium主要是通过驱动浏览器，完全模拟浏览器的操作，来拿到网页渲染之后的结果。因此，获取页数的方法可以通过模拟点击翻页按钮来实现。具体步骤如下： 1. 使用selenium打开目标网页。 2. 找到翻页按钮的元素，并模拟点击。 3. 使用WebDriverWait等待页面加载完成。 4. 找到页数元素，并获取其文本信息。 5. 关闭浏览器。需要注意的是，不同网站的翻页按钮和页数元素可能有所不同，需要根据具体情况进行调整。

阅读全文

selenium 获取页数

相关推荐

爬虫爬取taobao搜索页商品基本数据（可翻页）+ selenium + Xpath (爬虫具有时效性)

selenium遍历页数

selenium方法获取静态页面数据方法

1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息.zip

Python3 使用selenium插件爬取苏宁商家联系电话

Selenium爬取内容并存储至MySQL数据库.docx

scrapy+selenium之中国裁判文书网文书爬取

Python使用Selenium爬取淘宝异步加载的数据方法

解决Python selenium get页面很慢时的问题

Python+Selenium自动化实现分页（pagination）处理

Selenium2 Python自动化测试实战：分页处理详解

利用Selenium抓取京东TT产品数据与趋势分析实战

Selenium模拟动态加载：爬取大公司数据的高效策略

selenium自动爬取京东商品评论

爬虫运用selenium读取页面总数并翻页

把上面这个代码改进一下用selenium

使用Selenium模拟浏览器访问京东首页（网址https://item.jd.com/），爬取京东网站商品的评价。例如，搜索“口罩”， 100页相关商品信息，获取每个商品的全部评价，并保存到本地TXT文件中，每个商品的评价信息保存为一个文件。

Tobit与Probit模型Stata实现代码-最新发布.zip

最新推荐

Python爬取当当、京东、亚马逊图书信息代码实例

Python学习笔记之抓取某只基金历史净值数据实战案例

Tobit与Probit模型Stata实现代码-最新发布.zip

高清艺术文字图标资源，PNG和ICO格式免费下载

管理建模和仿真的文件

DMA技术：绕过CPU实现高效数据传输

SGM8701电压比较器如何在低功耗电池供电系统中实现高效率运作？

mui框架HTML5应用界面组件使用示例教程

"互动学习：行动中的多样性与论文攻读经历"

【数据传输高速公路】：总线系统的深度解析