webmagic+selenium
时间: 2023-10-01 22:02:51 浏览: 73
WebMagic Selenium是一个爬虫框架,用于爬取动态页面。根据引用和引用,WebMagic Selenium的使用需要相关依赖,并且可以通过分析网页源码获取下一页的网址和每篇文章的网址。该框架的特点是根据事先设定好的爬取规则,可以一直爬取下去直到结束。具体操作步骤如下:
1. 先准备好WebMagic Selenium的相关依赖,可以参考引用中的链接。
2. 分析目标网页的源码,找到下一页的网址和每篇文章的网址。根据引用所说,这些网址可能是通过JS动态加载的,所以需要使用WebMagic Selenium框架来处理动态页面。
3. 设定好爬取规则,即指定如何抓取每页和每篇文章的URL。根据引用所说,可以通过爬取每页的URL来抽取出该页所有文章的URL和下一页的URL。这样就可以一直迭代下去,直到结束。
总之,WebMagic Selenium是一个专门用于爬取动态页面的爬虫框架,可以通过分析网页源码和设定爬取规则来实现对网页内容的爬取。
相关问题
webmagic+Selenium所需要的jar包有哪些
您好,webmagic Selenium 所需要的jar包包括:
1. selenium-java-3.x.x.jar,其中 x 为具体的版本号;
2. selenium-api-3.x.x.jar;
3. client-combined-3.141.59.jar;
4. client-combined-3.141.59-sources.jar;
5. okhttp-3.x.x.jar;
6. okio-1.x.x.jar;
7. commons-exec-1.3.jar;
8. hamcrest-core-1.3.jar;
9. gson-2.x.x.jar;
10. guava-19.0.jar。
需要注意的是,上述 jar 包版本号可能因为时间较为久远而与当前略有不同,请根据实际情况选择对应版本的 jar 包。
爬取动态网页(webmagic和selenium)
爬取动态网页可以使用WebMagic和Selenium两种工具。WebMagic是一个Java爬虫框架,用于解析静态页面,但无法满足爬取动态页面的需求。为了爬取JavaScript被解析后的页面,我们需要借助Selenium来测试和爬取动态页面的代码。
首先,我们需要下载和引入一些资源和依赖。其中,selenium-devtools-v86是selenium-java的一个依赖项,版本号要与selenium-java一致。我们还需要远程调试Google Chrome浏览器,以允许通过HTTP协议与浏览器通信。为此,我们需要添加以下依赖项:
```xml
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-devtools-v86</artifactId>
<version>4.0.0-beta-2</version>
</dependency>
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>4.0.0-beta-2</version>
</dependency>
```
接下来,我们需要下载ChromeDriver,并将其放置在C:\Windows\System32目录下(或者使用System.setProperty("webdriver.chrome.driver", chromedriver.exe的路径)指定驱动程序的路径)。这样做是为了在运行代码时能够找到驱动程序。
综上所述,您可以使用WebMagic和Selenium来爬取动态网页。通过配置好依赖和驱动程序,您可以编写代码来实现您的爬取需求。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [【Java-Crawler】爬取动态页面(WebMagic、Selenium、ChromeDriver)](https://blog.csdn.net/qq_63691275/article/details/130839969)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]