利用Puppeteer爬取简书用户文章并转换为PDF

PDF格式 | 715KB | 更新于2024-08-29 | 135 浏览量 | 举报

本文主要介绍了如何利用 Node.js 和 Puppeteer 这个强大的自动化工具，在信息碎片化时代背景下，爬取简书上特定作者的所有文章并将其转化为 PDF 格式保存至本地。以下将详细介绍整个过程： 1. **目标场景**：在当今的信息时代，人们常常会遇到有价值的文章想收藏但又担心其会消失的情况。因此，本文的目标是通过无头浏览器技术（借助 Google 的 Puppeteer），创建一个爬虫程序，能够自动访问指定简书用户（ID为 f46becd1ed83）的所有文章，对其进行样式优化，并生成 PDF 文件，方便长期阅读和备份。 2. **准备工作**： - 首先，确保已安装 Node.js，因为 Puppeteer 是基于 Node.js 的库。通过 npm 安装 Puppeteer：`npm install puppeteer`。 - 使用 Chrome 的无头浏览器模式，需要预先下载并配置 Chromium，因为它提供了底层渲染引擎。 3. **分析思路**： - 以有头模式启动浏览器，便于观察爬虫执行过程。`const browser = await puppeteer.launch({ headless: false });` - 设置页面视口大小，然后访问文章列表页：`const page = await browser.newPage(); page.setViewport(viewport_size); await page.goto(BASE_URL + '/u/f46becd1ed83');` - 因为简书默认只展示首页文章，需编写一个滑动函数 `autoScroll()`，使用 JavaScript 的 `evaluate` 方法模拟用户滚动到底部，等待所有内容加载完毕。 4. **爬虫实现**： - 在 `autoScroll` 函数中，通过定时器不断调整视口高度（如 `totalHeight += distance;`），直到达到一定的阈值，然后清除定时器，表示页面加载完成。 - 通过遍历文章列表，识别每个文章标题、内容等元素，然后利用 Puppeteer 的 `querySelector` 方法选择和提取数据。 - 对文章内容进行格式优化，如去除广告、排版美化等。 - 使用 Puppeteer 的 `page.pdf()` 方法，将优化后的页面转换成 PDF 格式，保存到本地。 5. **注意事项**： - 需要注意遵守简书的爬虫政策，不要频繁或过度请求，以免对网站服务器造成压力。 - 爬虫可能遇到网页结构变化或反爬虫机制，需定期更新爬虫逻辑以适应变化。 - 在实际操作中，可能需要处理登录、验证码等问题，这取决于简书的用户权限和网站设计。通过以上步骤，可以有效地实现从简书抓取特定作者文章并生成 PDF 的自动化任务，既节省时间又方便长期保存有价值的内容。

【爬虫】爬取简书某【爬虫】爬取简书某ID所有文章并保存为所有文章并保存为pdf

编辑编辑 / 昱良昱良

目标场景

现如今，我们处于一个信息碎片化的信息时代，遇到好的文章都有随手收藏的习惯。但过一段时间，当你想要重新查看这篇文章的时候，发现文章已经被

移除或莫名其妙地消失了。

如果当时能将这些文章以 pdf 格式保存到本地，待空闲的时候慢慢地看，就不用担心这个问题了。

本文的目标是利用 Google 推出的「puppeteer」，配合无头浏览器爬取某位大佬在简书上发布的所有文章，并对页内元素进行优化样式后，以「pdf」

格式保存下载到本地。

准备工作

和前面爬虫方式不一样，这次的爬虫是在「Node.js」环境下执行的，所以需要提前安装好 node js。

然后通过 npm 安装「puppeteer」模块。

npm i puppeteer

我这里使用 Chrome 的无头浏览器模式，所以需要提前下载好「chromium」放在本地。

分析思路

为了便于观察，首先我们利用 puppeteer 以有头模式启动浏览器。

const browser = await puppeteer.launch({

// 设置false可以看到页面的执行步骤

headless: false,

});

再设置好浏览器的大小，然后打开文章列表页面。

BASE_URL = https://www.jianshu.com ;

//文章列表地址

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38730767

粉丝: 8
资源: 923

利用Puppeteer爬取简书用户文章并转换为PDF

爬虫实战：简书文章数据爬取与存储

使用Python实现简书个人文章数据爬取

简书爬虫工具：高效抓取专题、作者及文章数据

爬虫脚本项目源码-爬取简书个人文章

爬取简书文章.zip

jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫

Python爬取简书个人文章.rar

Python-scrapy实现爬取简书首页热门文章

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

jianshu-crawl:Scrapy + selenium爬取简书全站

最新资源