jsoup教程：URL解析HTML获取书籍信息

3星 · 超过75%的资源 | 下载需积分: 9 | TXT格式 | 1KB | 更新于2024-09-15 | 169 浏览量 | 举报

1 收藏

"JSoup是Java开发中用于处理HTML文档的强大工具，本文将详细介绍如何利用它根据URL解析HTML内容。首先，通过`Jsoup.connect(url).get()`方法连接并获取指定URL（如http://www1.17k.com/book/182745.html）的HTML文档。然后，利用`.select()`方法定位到文档中的特定元素，例如头部的元数据（`<meta>`标签）和书籍信息部分的书名链接（`<div.bookTit>h1>a[href]`）。在提取链接时，我们通过`.attr("href")`获取链接的完整地址，并将其存储在`book.setSrc_url(href)`中，同时打印出链接以便查看。对于每个元数据元素，我们通过字符串处理技术，如`split()`和`StringBuilder`，来逐一提取属性值，如书名（`b_name`）、封面图片链接（`cover_url`），以及可能存在的简介（`summary`）。这部分代码展示了如何通过迭代器遍历元数据，并根据索引位置（`i`）选择相应的属性值。例如，当`i == 6`时，表示找到书名标签，通过删除首尾的引号并提取内容，设置`book.setName(b_name)`；当`i == 8`时，类似地处理封面图片链接。然而，提到的"ȡ"可能是描述中的拼写错误或未完成的部分，需要进一步确认。这篇文章主要讲解了如何使用JSoup对HTML文档进行高效解析，包括连接网页、选择元素、提取属性，并针对实际需求进行数据提取和处理。这对于处理网页抓取、数据挖掘或简单的网页应用程序开发来说，是非常实用的技术。通过学习和实践这些技巧，开发者能够更好地理解和操作HTML文档，从而实现各种功能需求。"

列如
public static List<Book> getFirstBookInfo(String url) {
List<Book> list =null;
Book book = new Book();
try {
Document doc = Jsoup.connect(url).get();//http://www1.17k.com/book/182745.html
Elements select = doc.select("html>head>meta");
Iterator<Element> iterator = select.iterator();
Elements select2 = doc.select("div.bookTit>h1>a[href]");
for (Element link : select2) {
String href = "http://www1.17k.com"+link.attr("href");
book.setSrc_url(href);
System.out.println("href:"+href);
}
int i = 0;
while (iterator.hasNext()) {
Element next = iterator.next();
String string = next.toString();
String[] split = string.split("=");
StringBuilder sBuilder = new StringBuilder(split[split.length-1]);
sBuilder.delete(0, 1);
if (i==6) {//获取名字
String b_name = ""+sBuilder.delete(sBuilder.indexOf("\""), sBuilder.length());
book.setName(b_name);
}else if(i==8) {//获取图片链接
String image = ""+sBuilder.delete(sBuilder.indexOf("\""), sBuilder.length());
book.setCover_url(image);
}else if(i==9){//获取内容介绍
String summary = ""+sBuilder.delete(sBuilder.indexOf("\""), sBuilder.length());
book.setSummary(summary);

下载后可阅读完整内容，剩余1页未读，立即下载