使用webmagic,爬虫CSDN个人博客中详情页的内容,并保存到本地

时间: 2024-05-14 12:12:19 浏览: 14
以下是一个示例代码,可以爬取CSDN个人博客中最新的10篇文章的标题、发布时间、正文内容,并保存到本地文件中。 ```java import java.io.FileWriter; import java.io.IOException; import java.util.List; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; public class CSDNBlogProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public Site getSite() { return site; } @Override public void process(Page page) { Document document = page.getHtml().getDocument(); Elements titleElements = document.select(".title-article"); String title = titleElements.first().text(); String date = titleElements.last().text(); String content = document.select("#article_content").html(); page.putField("title", title); page.putField("date", date); page.putField("content", content); } public static void main(String[] args) throws IOException { Spider spider = Spider.create(new CSDNBlogProcessor()) .addUrl("https://blog.csdn.net/username/article/list") .addPipeline(new FilePipeline("D:/csdn_blog")) .thread(5); spider.run(); } public static class FilePipeline implements Pipeline { private String path; public FilePipeline(String path) { this.path = path; } @Override public void process(ResultItems resultItems, Task task) { String title = resultItems.get("title"); String date = resultItems.get("date"); String content = resultItems.get("content"); String fileName = title + ".html"; try (FileWriter writer = new FileWriter(path + "/" + fileName)) { writer.write("<html><head><title>" + title + "</title><meta charset=\"utf-8\"></head><body>"); writer.write("<h1>" + title + "</h1>"); writer.write("<p>" + date + "</p>"); writer.write(content); writer.write("</body></html>"); } catch (IOException e) { e.printStackTrace(); } } } } ``` 说明: - 在`process`方法中,首先使用Jsoup选择器获取标题、日期、正文内容,并将其保存到`ResultItems`对象中。 - 然后,在`main`方法中,使用`Spider`对象构建爬虫,设置起始URL、线程数、结果处理器(本示例中使用自定义的`FilePipeline`),并启动爬虫。 - 在自定义的`FilePipeline`中,从`ResultItems`对象中获取文章的标题、日期、正文内容,并将其写入到本地文件中。在写入HTML文件时,需要手动添加HTML标签,保证正文内容可以正常显示。 注意: - 在示例代码中,需要将`username`替换为实际的CSDN用户名。 - 需要将`D:/csdn_blog`替换为实际的保存路径。

相关推荐

最新推荐

recommend-type

python制作爬虫并将抓取结果保存到excel中

本文给大家记录的是使用Python制作爬虫爬取拉勾网信息并将结果保存到Excel中的实现思路及方法,并附上最终源码,有需要的小伙伴可以参考下
recommend-type

Python爬虫之Scrapy(爬取csdn博客)

本博客介绍使用Scrapy爬取博客数据(标题,时间,链接,内容简介)。首先简要介绍Scrapy使用,scrapy安装自行百度安装。 创建爬虫项目 安装好scrapy之后,首先新建项目文件:scrapy startproject csdnSpider 创建...
recommend-type

Python爬虫进阶之多线程爬取数据并保存到数据库

今天刚看完崔大佬的《python3网络爬虫开发实战》,顿时觉得自己有行了,准备用appium登录QQ爬取列表中好友信息,接踵而来的是一步一步的坑,前期配置无数出错,安装之后连接也是好多错误,把这些错误解决之后,找APP...
recommend-type

springBoot+webMagic实现网站爬虫的实例代码

主要介绍了springBoot+webMagic实现网站爬虫的实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

python智联招聘爬虫并导入到excel代码实例

主要介绍了python智联招聘爬虫并导入到excel代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB正态分布协方差分析:揭示正态分布变量之间的协方差

![MATLAB正态分布协方差分析:揭示正态分布变量之间的协方差](https://site.cdn.mengte.online/official/2021/11/20211128213137293.png) # 1. 正态分布概述 正态分布,又称高斯分布,是统计学中最重要的连续概率分布之一。它广泛应用于自然科学、社会科学和工程领域。 正态分布的概率密度函数为: ``` f(x) = (1 / (σ√(2π))) * exp(-(x - μ)² / (2σ²)) ``` 其中: - μ:正态分布的均值 - σ:正态分布的标准差 - π:圆周率 正态分布具有以下特性: - 对称性:
recommend-type

我正在开发一款个人碳足迹计算app,如何撰写其需求分析文档,请给我一个范例

为了更全面、清晰地定义个人碳足迹计算app的需求,需求分析文档应该包含以下内容: 1.项目简介:对该app项目的概述及目标进行说明。 2.用户分析:包括目标用户群、用户需求、行为等。 3.功能需求:对app的基本功能进行定义,如用户登录、数据录入、数据统计等。 4.非功能需求:对使用app的性能和质量等进行定义,如界面设计、数据安全、可扩展性等。 5.运行环境:包括app的开发环境和使用环境。 下面是一个范例: 需求分析文档 1. 项目简介 该app项目旨在为用户提供一款方便、易用、可定制的个人碳足迹计算平台,以促进环保和可持续性发展。 2. 用户分析 目标用户群:全球关
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。