快速掌握Puppeteer：浏览器操作与自动化实战

129 浏览量更新于2024-08-29 收藏 134KB PDF 举报

Puppeteer 是一个强大的 Node.js 库，专为自动化浏览器操作而设计，特别是针对 Chrome 浏览器（包括无头模式，即 headless）。它的核心优势在于其与 Chrome 官方团队的紧密关联，提供了稳定且高效的功能，使得开发者能够轻松执行诸如网页截图、高级爬虫、UI 自动化测试以及性能分析等任务。 1. **Puppeteer 功能概览** - Puppeteer 提供了一套完整的 API，让你能够控制浏览器执行各种操作，如导航、屏幕截图、PDF 生成、表单填写、模拟用户交互等。由于它基于 Chrome，能够处理异步渲染内容，对于动态加载的网页抓取尤其有效。 - 作为“木偶”般的工具，Puppeteer 的操作直观易用，即使不熟悉底层技术，也能快速上手并编写自动化脚本。 2. **运行环境要求** - Puppeteer 需要至少 Node.js v7.6.0 或更高版本，因为其 API 使用了 ES7 的 async/await 语法。 - 为了与 Puppeteer 无缝配合，必须安装最新版本的 chromedriver，这会在首次安装时由 npm 自动下载。 3. **基本用法示例** - 示例代码展示了如何通过 `puppeteer` 模块导入并使用它。首先，导入库并创建一个异步函数来启动浏览器 (`puppeteer.launch()`)，接着创建一个新的页面 (`browser.newPage()`)，导航到目标网址 (`page.goto()`)，然后截取页面并保存为图片 (`page.screenshot()`)，最后关闭浏览器 (`browser.close()`）。 4. **与 PhantomJS 的对比** - Puppeteer 相比 PhantomJS，虽然两者都是用于自动化浏览器，但 Puppeteer 有着更好的性能和更新性，因为它依赖于活跃的 Chrome 平台。PhantomJS 已经停止维护，而 Puppeteer 的未来更为可期。 Puppeteer 的学习曲线相对平缓，对于想要提升工作效率或进行自动化测试的开发者来说，掌握其核心功能将极大提升项目实施的便捷性和可靠性。随着深入研究，开发者还可以利用 Puppeteer 的高级特性，如时间线分析，以优化网站性能和解决前端问题。

详解详解Puppeteer 入门教程入门教程

1、、Puppeteer 简介简介

Puppeteer 是一个node库，他提供了一组用来操纵Chrome的API, 通俗来说就是一个 headless chrome浏览器 (当然你也可以

配置成有UI的，默认是没有的)。既然是浏览器，那么我们手工可以在浏览器上做的事情 Puppeteer 都能胜任, 另

外，Puppeteer 翻译成中文是”木偶”意思，所以听名字就知道，操纵起来很方便，你可以很方便的操纵她去实现：

1）生成网页截图或者 PDF

2）高级爬虫，可以爬取大量异步渲染内容的网页

3）模拟键盘输入、表单自动提交、登录网页等，实现 UI 自动化测试

4）捕获站点的时间线，以便追踪你的网站，帮助分析网站性能问题

如果你用过 PhantomJS 的话，你会发现她们有点类似，但Puppeteer是Chrome官方团队进行维护的，用俗话说就是”有娘家

的人“，前景更好。

2、运行环境、运行环境

查看 Puppeteer 的官方 API 你会发现满屏的 async, await 之类，这些都是 ES7 的规范，所以你需要：

Nodejs 的版本不能低于 v7.6.0, 需要支持 async, await.

需要最新的 chrome driver, 这个你在通过 npm 安装 Puppeteer 的时候系统会自动下载的

npm install puppeteer --save

3、基本用法、基本用法

先开看看官方的入门的 DEMO

const puppeteer = require('puppeteer');

(async () => {

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto('https://example.com');

await page.screenshot({path: 'example.png'});

await browser.close();

})();

上面这段代码就实现了网页截图，先大概解读一下上面几行代码：

先通过 puppeteer.launch() 创建一个浏览器实例 Browser 对象

然后通过 Browser 对象创建页面 Page 对象

然后 page.goto() 跳转到指定的页面

调用 page.screenshot() 对页面进行截图

关闭浏览器

是不是觉得好简单？反正我是觉得比 PhantomJS 简单，至于跟 selenium-webdriver 比起来，那更不用说了。下面就介绍一

下 puppeteer 的常用的几个 API。

3.1 puppeteer.launch(options)

使用 puppeteer.launch() 运行 puppeteer，它会 return 一个 promise，使用 then 方法获取 browser 实例，当然高版本的的

nodejs 已经支持 await 特性了，所以上面的例子使用 await 关键字，这一点需要特殊说明一下，Puppeteer 几乎所有的操作都

是异步的, 为了使用大量的 then 使得代码的可读性降低，本文所有 demo 代码都是用 async, await 方式实现。这个也是

Puppeteer 官方推荐的写法。对 async/await 一脸懵逼的同学狠狠的戳这里

options 参数详解

参数名称参数类型参数说明

ignoreHTTPSErrors boolean 在请求的过程中是否忽略 Https 报错信息，默认为 false

headless boolean

是否以”无头”的模式运行 chrome, 也就是不显示 UI，默认

为 true

executablePath string

可执行文件的路劲，Puppeteer 默认是使用它自带的

chrome webdriver, 如果你想指定一个自己的 webdriver 路

径，可以通过这个参数设置

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38629274

粉丝: 4
资源: 898

快速掌握Puppeteer：浏览器操作与自动化实战

使用puppeteer-gif-cast生成网站滚动GIF动画

使用Puppeteer和AWS实现ATLA角色数据Web抓取

爬虫技术基础与应用场景详解

bilibili-feed-puppeteer-源码.rar

WebUI自动化详解说明文档.zip

python爬虫_python爬虫详解_python爬虫_

详解使用mocha对webpack打包的项目进行"冒烟测试"的大致流程

爬虫开发教程.docx

to-do-tutorial:后续教程

爬虫开发+基本的爬虫开发流程和一些建议，帮助你入门

最新资源