使用selenium与phantomjs抓取网页API与参数的策略

155 浏览量更新于2024-08-31 收藏 84KB PDF 举报

"selenium在执行phantomjs的API并获取执行结果的方法" 本文将探讨如何使用Selenium结合PhantomJS来执行JavaScript代码并获取执行结果，这对于自动化测试、网页抓取，尤其是处理动态内容和参数提取至关重要。Selenium是一个强大的自动化测试工具，它允许模拟用户与网页的交互。PhantomJS则是一个无头浏览器，可以在没有图形界面的情况下运行JavaScript，非常适合进行网页抓取和自动化任务。首先，我们需要理解Selenium和PhantomJS是如何协同工作的。Selenium WebDriver提供了一个接口，可以控制PhantomJS这样的浏览器实例。通过这个接口，我们可以执行JavaScript代码，就像在浏览器的开发者工具中执行一样，同时获取执行结果。 1. **使用Selenium启动PhantomJS**：在Python中，首先需要安装`selenium`库，然后通过以下代码启动PhantomJS浏览器实例： ```python from selenium import webdriver driver = webdriver.PhantomJS() driver.get('http://example.com') ``` 2. **执行JavaScript并获取结果**：使用`execute_script()`方法，我们可以执行任意的JavaScript代码，并获取其返回值： ```python result = driver.execute_script('return document.title;') print(result) ``` 上述代码将打印当前页面的标题。 3. **处理动态内容和参数提取**： - 对于第1和2类问题，即页面上的静态表单和链接，Selenium可以直接获取元素并读取其属性，如`form`的`action`属性和`input`的`value`属性。 - 第3类问题涉及到由JavaScript生成的动态内容。由于PhantomJS会执行页面上的所有JavaScript，我们可以监听`onResourceReceived`事件来捕获由AJAX请求产生的资源。 - 第4类问题涉及多步交互。可以模拟用户的点击行为，然后再次检查页面状态或执行额外的JavaScript来获取参数。 - 第5类问题，即延迟触发的请求，可以通过设置定时器或者监听特定事件来解决，这可能需要更复杂的逻辑，比如注入额外的JavaScript来取消或替换`setTimeout`。 4. **使用PhantomJS的API**：如果需要更底层的控制，可以直接使用PhantomJS的API，例如`page.evaluate()`，它可以执行页面上下文中的JavaScript代码： ```python result = driver.page.evaluate('function() { return document.body.innerHTML; }') ``` 5. **数据提取和解析**：获取到JavaScript执行的结果后，可能需要进一步处理，如使用正则表达式或BeautifulSoup等库来提取数据。总结，利用Selenium和PhantomJS的组合，我们可以处理各种网页动态行为，包括JavaScript生成的内容和异步请求，从而实现更复杂的网页抓取和自动化任务。然而，需要注意的是，随着无头浏览器的选择增多，如Chrome的Headless模式，选择适合项目需求的工具变得尤为重要。对于某些场景，可能Chrome Headless或Firefox Headless会是更好的选择，因为它们提供了更现代的Web标准支持。

selenium在执行在执行phantomjs的的API并获取执行结果的方法并获取执行结果的方法

今天小编就为大家分享一篇selenium在执行phantomjs的API并获取执行结果的方法，具有很好的参考价值，希

望对大家有所帮助。一起跟随小编过来看看吧

前言前言

因为最近要写一个抓取sitemap和相应的参数的小脚本，现有的爬虫无论用什么语言写的，几乎都无法抓取参数，所以我思考

了一下，先做一个简单的总结。

本来以为写个这种sitemap的爬虫很简单，经过思考之后才发现其中的可怕之处，最关键的是参数的提取，这个太麻烦了。。

。这个时候才发现AWVS的无敌和强大之处。。。

如果我们要获取网站的sitemap同时还要抓取对应链接的参数，我大概总结了url的几个来源：

1、页面上直接现有的form表单以及现有的href等指向的链接及参数，这个相对比较简单，不过要考虑post和get的问题。

2、由js生成的DOM中的form表单和href指向的链接

3、由js发起的访问请求，例如AJAX请求等

4、通过点击然后调用js发送请求，或是点击生成一个form或是生产一个DOM，然后再点击再由js发送请求。例如如下代码

<div>

</div>

5、通过setTimeout函数延迟触发的js的请求，例如setTimeout("request()", 2000);，这一类我暂时还没有太好的办法解决，不

过有初步的办法，后面会说到。

目前我大概想到这么五类，肯定还有没考虑到的地方，并且目前实际的代码还没有写出来，我先记录一下我的想法，要是有哪

位师傅有兴趣请务必联系我。。。。orz。。

要解决上述的5个问题，因为我的工程的前半部分使用python写的，所以这里我需要用python来解决，那么最佳选择必然是

selenium和phantomjs，其实比起来我更想用原生的phantomjs来写。

用phantomjs的话第一个和第二个问题不攻自破，直接正则匹配下来就行了，因为它会帮我们先把页面的js执行了。

第三个问题也相对比较好解决，我们通过原生phantomjs的APIonResourceRequested就能够监控所有从页面发出去的请求。

然后再来看第四个问题，我目前的想法应该没有办法彻底解决，我们同样可以用phantomjs向页面的所有的dom发送一个click

事件，但是这样子的话时间是一个很大的问题，所以初步想法向所有具有onclick事件的标签发送点击事件

然后再来看第五个问题，这应该是最麻烦的一个，我初步的想法还是用onResourceRequested事件，然后设置一个超时时

限，让页面执行个几秒钟，但是最后我还是放弃了这个想法，我决定忽视这个问题，因为如果每个页面都等上几秒那时间耗费

不堆上天了。

以上就是我目前初步的一些思考，还有很多不成熟之处。

selenium与与phantomjs联动的问题联动的问题

之前一直知道有selenium这个东西，不够因为没有地方需要，也没有可以去学习，不过对phantomjs可能会稍微熟悉一些。

先写个简单的程序

from selenium import webdriver

service_args=[]

service_args.append('--load-images=no') ##关闭图片加载

service_args.append('--disk-cache=yes') ##开启缓存

service_args.append('--ignore-ssl-errors=true') ##忽略https错误

d=webdriver.PhantomJS("phantomjs",service_args=service_args)

d.get("http://xxxxxxxxxxxxxxxxxxxxx")

print d.page_source

d.quit()

这样就可以发送get请求了。

问题一：没有问题一：没有post请求？请求？

我觉得应该是我还了解的不够。不过翻了API，确实没有找到，希望大家能够指出我的错误，但我真的好像没有找到能够发送

post请求的地方，真是蠢爆了。。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38719702

粉丝: 3
资源: 945

使用selenium与phantomjs抓取网页API与参数的策略

基于C#.NET+PhantomJS+Sellenium的高级网络爬虫系统设计与实现

selenium的dll文件与phantomjs.

selenium-phantomjs:使用Selenium Web驱动程序和PhantomJS下载HTML源代码-html source download

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Crystal:一个基于scrapy+selenium+phantomjs的爬虫程序，用于抓取多个学校的学术报告信息

phantomjs驱动

phantomjs压缩包

AngleSharp+PhantomJS获取动态网页(c#).rar

phantomjs.exe

Python爬虫利用Selenium与PhantomJS解析图片懒加载技术详解

最新资源