使用webmagic，爬虫CSDN个人博客中详情页的内容，并保存到本地

以下是一个示例代码，可以爬取CSDN个人博客中最新的10篇文章的标题、发布时间、正文内容，并保存到本地文件中。 ```java import java.io.FileWriter; import java.io.IOException; import java.util.List; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; public class CSDNBlogProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public Site getSite() { return site; } @Override public void process(Page page) { Document document = page.getHtml().getDocument(); Elements titleElements = document.select(".title-article"); String title = titleElements.first().text(); String date = titleElements.last().text(); String content = document.select("#article_content").html(); page.putField("title", title); page.putField("date", date); page.putField("content", content); } public static void main(String[] args) throws IOException { Spider spider = Spider.create(new CSDNBlogProcessor()) .addUrl("https://blog.csdn.net/username/article/list") .addPipeline(new FilePipeline("D:/csdn_blog")) .thread(5); spider.run(); } public static class FilePipeline implements Pipeline { private String path; public FilePipeline(String path) { this.path = path; } @Override public void process(ResultItems resultItems, Task task) { String title = resultItems.get("title"); String date = resultItems.get("date"); String content = resultItems.get("content"); String fileName = title + ".html"; try (FileWriter writer = new FileWriter(path + "/" + fileName)) { writer.write("<html><head><title>" + title + "</title><meta charset=\"utf-8\"></head><body>"); writer.write("<h1>" + title + "</h1>"); writer.write("<p>" + date + "</p>"); writer.write(content); writer.write("</body></html>"); } catch (IOException e) { e.printStackTrace(); } } } } ``` 说明： - 在`process`方法中，首先使用Jsoup选择器获取标题、日期、正文内容，并将其保存到`ResultItems`对象中。 - 然后，在`main`方法中，使用`Spider`对象构建爬虫，设置起始URL、线程数、结果处理器（本示例中使用自定义的`FilePipeline`），并启动爬虫。 - 在自定义的`FilePipeline`中，从`ResultItems`对象中获取文章的标题、日期、正文内容，并将其写入到本地文件中。在写入HTML文件时，需要手动添加HTML标签，保证正文内容可以正常显示。注意： - 在示例代码中，需要将`username`替换为实际的CSDN用户名。 - 需要将`D:/csdn_blog`替换为实际的保存路径。

使用webmagic，爬虫CSDN个人博客中详情页的内容，并保存到本地

相关推荐

WebMagic 抓取CSDN博客、并打印

Python爬虫，实现爬取CSDN文章，并保存到本地为MarkDown 格式

WebMagic抓取CSDN博客通过JDBC保存到数据库中去

WebMagic爬虫监控与管理：定时任务调度与异常处理

使用webmagic爬虫csdn，获取列表页和详情页标题、内容、日期，使用JDBC保存到数据库，给出详细步骤代

spring boot 整合爬虫框架webmagic,爬虫博客列表页和详情页内容，并将数据存储到数据库，详细步骤和代码

爬虫爬取csdn博客信息并保存至本地形成xls表格的完整源代码

怎么爬虫个人博客并保存到数据库

Python爬虫抓取网页数据并保存到本地数据文件中

WebMagic在爬虫博客园个人博客的步骤

使用Python爬虫怎么将网页图片保存到本地

使用Python爬虫怎么将多个网页图片保存到本地

python爬虫爬取图片并保存到本地的代码

用python写一个爬虫，爬取百度文库并保存到本地

爬虫爬取图片保存到本地

当当网爬虫保存到本地

python爬虫爬取网页所需的文字内容，并保存在txt中

python爬虫爬取网站正文并保存在本地

python爬虫爬取网站图片并保存在本地

最新推荐

python制作爬虫并将抓取结果保存到excel中

Python爬虫之Scrapy（爬取csdn博客）

springBoot+webMagic实现网站爬虫的实例代码

Python爬虫进阶之多线程爬取数据并保存到数据库

python智联招聘爬虫并导入到excel代码实例

AirKiss技术详解：无线传递信息与智能家居连接

管理建模和仿真的文件

交叉验证全解析：数据挖掘中的黄金标准与优化策略

在交换机上创建 VLAN10、VLAN20和VLAN30，将交换机 B 的 2-5 接口加入到 VLAN 10 中 用ensp写出配置命令

Hibernate主键生成策略详解

在交换机上创建 VLAN10、VLAN20和VLAN30，将交换机 B 的 2-5 接口加入到 VLAN 10 中用ensp写出配置命令