使用Java语言的webcollector 编写一个爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序

时间: 2023-12-13 14:04:04 浏览: 150

vue双向数据绑定知识点总结

以下是使用Java语言和WebCollector框架编写的爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序： ```java import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.net.HttpRequest; import cn.edu.hfut.dmic.webcollector.net.HttpResponse; import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class XianghaCrawler extends BreadthCrawler { public XianghaCrawler(String crawlPath, boolean autoParse) { super(crawlPath, autoParse); addSeed("https://www.xiangha.com/caipu/95247360.html"); } public void visit(Page page, HttpRequest httpRequest, HttpResponse httpResponse) { String url = page.getUrl(); if (httpResponse.getStatus() == HttpResponse.STATUS_OK) { Document doc = Jsoup.parse(page.getHtml()); String title = doc.select("h1.title").text(); String ingredients = doc.select("div.ings").text(); String steps = doc.select("div.steps > ol > li").text(); System.out.println(title + "\n" + ingredients + "\n" + steps); } } public static void main(String[] args) { String crawlPath = "xiangha_crawler"; XianghaCrawler xianghaCrawler = new XianghaCrawler(crawlPath, true); xianghaCrawler.setThreads(2); xianghaCrawler.start(2); } } ``` 代码中使用WebCollector爬虫框架，实现了对目标页面的爬取。在visit方法中，使用Jsoup解析HTML文档，并提取出正文内容，最终输出到控制台。可以根据需要将输出改为保存到文件中。注意Java版本需要在1.8以上，同时需要添加WebCollector和Jsoup的依赖。

阅读全文

使用Java语言的webcollector 编写一个爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序

相关推荐

Vue双向绑定原理与ES5 defineProperty详解

使用webcollector 编写一个爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序

使用spark 编写一个爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

排序

用于挂接 DirectX API 调用的库.zip

高效PDCA工作法：从计划到调整的管理四步骤指南

CnPack 密码算法库

【路径规划】A_Star算法多机器人牛耕式分区路径规划【含Matlab仿真 2793期】.zip

在Windows上通过解压包形式安装MySQL 8.0.40

【路径规划】白鲸算法栅格地图机器人最短路径规划【含Matlab仿真 2945期】.zip

(完整数据)中国城市空气污染站点数据，共170多万条记录2014年-2022年

基于Python+flask+mongodb WEB开发的个人知识管理系统详细文档+资料齐全.zip

Web3开发入门与案例演示

【机器人编队】A_Star算法机器人编队栅格地图巡逻路径规划【含Matlab仿真 2808期 】.zip

基于Python3的在线考试系统详细文档+资料齐全.zip

基于Python 3.7+Django 2.2.3 实现的资产管理系统资料齐全+详细文档.zip

最新推荐

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

排序

用于挂接 DirectX API 调用的库.zip

MATLAB新功能：Multi-frame ViewRGB制作彩色图阴影

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

在Flow-3D中如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

XKCD Substitutions 3-crx插件：创新的网页文字替换工具

【机器人编队】A_Star算法机器人编队栅格地图巡逻路径规划【含Matlab仿真 2808期】.zip