jsoup爬取页面js css
时间: 2023-11-15 09:48:58 浏览: 90
jsoup是一个Java的HTML解析器,它可以很方便地解析HTML文档,获取HTML中的元素、属性、文本等信息。但是,jsoup并不支持解析JavaScript和CSS,因为JavaScript和CSS是在浏览器中解析的,而不是在HTML中解析的。
如果你想爬取页面的JavaScript和CSS,可以使用其他工具来获取页面源代码,如HttpClient、Selenium等。这些工具可以模拟浏览器的行为,获取完整的页面源代码,包括JavaScript和CSS。
下面是一个使用HttpClient和Jsoup来爬取页面的例子:
```java
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
public class JsoupDemo {
public static void main(String[] args) throws IOException {
String url = "http://www.example.com";
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet(url);
String html = "";
try (CloseableHttpResponse response = httpClient.execute(httpGet);
InputStream inputStream = response.getEntity().getContent()) {
html = IOUtils.toString(inputStream, StandardCharsets.UTF_8);
}
Document document = Jsoup.parse(html);
// 获取页面中的JavaScript和CSS
Elements scripts = document.select("script");
Elements styles = document.select("style");
// 处理页面元素
// ...
httpClient.close();
}
}
```
这个例子中,我们使用HttpClient来发送HTTP请求获取页面源代码,然后使用Jsoup来解析页面元素。通过`document.select("script")`和`document.select("style")`来获取页面中的JavaScript和CSS。
阅读全文