使用jsoup解析网页HTML并提取链接

需积分: 10 37 浏览量更新于2024-09-14 收藏 4KB TXT 举报

"该资源主要展示了如何使用Java库jsoup来解析网页内容，特别是提取页面上的链接。通过示例代码，我们可以学习到jsoup的基本用法，包括连接网站获取HTML文档，以及使用CSS选择器来筛选和提取所需元素。" 在Java开发中，jsoup是一个非常流行的库，用于处理HTML文档，它可以方便地解析、提取和修改网页内容。在提供的代码片段中，我们看到如何使用jsoup来完成以下操作： 1. 引入jsoup相关类：首先，我们导入了jsoup库中的几个关键类，包括`Jsoup`、`Document`、`Element`和`Elements`，这些都是jsoup解析和操作HTML文档的核心类。 2. 连接并获取网页内容：通过`Jsoup.connect(url).get()`方法，我们可以获取指定URL的网页内容，并将其解析为一个`Document`对象。这里的`url`变量通常由命令行参数提供，但在这个例子中，它被硬编码为" http://news.china.com.cn/live/2012-12/11/content_17609959.htm"。 3. 打印调试信息：`print("Fetching from %s", url)`这行代码用于打印获取页面的调试信息，显示我们正在从哪个URL获取数据。 4. 使用CSS选择器提取数据：通过`doc.select("a[href]")`，我们可以选取文档中所有具有`href`属性的`<a>`标签，即页面上的所有链接。这返回一个`Elements`集合，包含了匹配的所有元素。 5. 遍历并处理结果：虽然没有在示例代码中展示，但通常我们会在提取到`Elements`后进一步处理这些链接，例如遍历集合，打印链接的`href`值，或者执行其他分析任务。 jsoup提供了一个简单易用的API，使得开发者可以方便地处理HTML文档，无论是抓取数据、清洗网页内容还是进行自动化测试。通过掌握jsoup，开发者能够有效地解析和利用网页信息，实现各种Web抓取和数据分析任务。

//得到一个结论，那就是要想得到指定的内容还是有困难的，一般的思路就是得到一个网页的html静态代码，然后再逐步解析。这里基本上可以得到一个网站的所有汉字。
//<P><TD><TR><TBODY><TABLE> </P></TD></TR></TBODY></TABLE>
package getgref;
import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/** * Example program to list links from a URL. */
public class getcontent {
public static void main(String[] args) throws IOException
{
Validate.isTrue(args.length == 0, "http://zhidao.baidu.com/question/9668427.html");
//这是原始的样子，从main()直接传一个参数过来字符串数组里面就只有一个参数，Validate.isTrue（）
//第一个参数是一个boolean，第二个是一个url的字符串，我们仅仅是测试一下
//Validate.isTrue(args.length == 1, "usage: supply url to fetch");
//String url = args[0];
//String url =" http://zhidao.baidu.com/question/9668427.html";
String url ="http://news.china.com.cn/live/2012-12/11/content_17609959.htm";
print("Fetching from %s", url);
//Document doc = Jsoup.parseBodyFragment(html);//html is a string
Document doc = Jsoup.connect(url).get();
//此页面上的超链接，Elements是产生的都是一些集合
//Use selector-syntax to find elements
Elements links = doc.select("a[href]");
//Element links = doc.select("a[href]").first(); 注意是element仅仅是获得第一个超链接元素
//从外面引入的脚本文件，js文件或者是img<link> ：标签定义文档与外部资源的关系。
Elements media = doc.select("[src]");
//Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png

下载后可阅读完整内容，剩余2页未读，立即下载

li_hengchang

粉丝: 1
资源: 7

使用jsoup解析网页HTML并提取链接

Jsoup实战：解析与抓取网页数据详解

Java使用Jsoup实现网页内容爬取方法及jar包解析

Java HTML解析器jsoup的压缩包解析与应用

jsoup解析网页

Jsoup 解析网页实例

利用jsoup解析网页

Jsoup解析网页工具类

jsoup Java HTML解析器

jsoup根据url解析html

使用Jsoup解析html网页

最新资源