java使用selenium爬取并保存网页全部内容
时间: 2023-12-23 22:26:55 浏览: 45
以下是使用Java和Selenium爬取并保存网页全部内容的示例代码:
```java
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import java.io.BufferedWriter;
import java.io.FileWriter;import java.io.IOException;
public class WebPageCrawler {
public static void main(String[] args) {
// 设置 ChromeDriver 路径
System.setProperty("webdriver.chrome.driver", "/path/to/chromedriver");
// 创建 ChromeDriver 实例
WebDriver driver = new ChromeDriver();
// 打开目标网页
driver.get("https://www.example.com");
// 获取网页源代码
String pageSource = driver.getPageSource();
// 保存网页源代码到文件
try {
BufferedWriter writer = new BufferedWriter(new FileWriter("/path/to/output/file.html"));
writer.write(pageSource);
writer.close();
} catch (IOException e) {
e.printStackTrace();
}
// 关闭 ChromeDriver 实例
driver.quit();
}
}
```
需要注意的是,为了使Selenium正常工作,需要下载对应版本的ChromeDriver,并将其路径设置为系统属性。此外,还需要在代码中指定要爬取的网页URL和输出文件路径。