Puppeteer：Google Chrome Headless 的强大操控工具

50 浏览量更新于2024-08-30 收藏 150KB PDF 举报

Puppeteer是一种用于自动化和控制Chrome或Chromium的Node.js库，它基于DevTools协议。Puppeteer允许开发者通过提供的一系列高级API来实现无头浏览器的功能，如网页截屏、爬取SPA（单页应用）内容、自动化表单提交、点击操作等。 Puppeteer的兴起与Google Chrome Headless模式的发展密切相关。随着PhantomJS的逐渐衰退，Chrome Headless因其快速、稳定和强大的性能成为了新的趋势。Puppeteer作为Chrome Headless的API，可以方便地进行各种自动化任务，尽管它仅支持Node.js环境。安装Puppeteer非常简单，通过npm包管理器运行`npm install puppeteer`即可。值得注意的是，安装过程中Puppeteer会默认下载一个匹配的Chromeium版本，如果不想包含此部分，可以通过配置选项跳过。使用Puppeteer的基本流程通常包括以下几个步骤： 1. **初始化浏览器**：首先需要实例化一个浏览器对象，这可以通过`puppeteer.launch()`完成。`launch()`函数可以接受多个参数，例如设置`headless: false`可以使浏览器在前台运行，以便观察自动化过程。 ```javascript const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch({ headless: false }); // ... })(); ``` 2. **创建页面**：接下来，我们需要创建一个新的页面来访问网站，这通过`browser.newPage()`实现。 3. **导航到URL**：然后，我们可以使用`page.goto(url)`方法导航到指定的URL，如百度首页。 ```javascript const page = await browser.newPage(); await page.goto('http://www.baidu.com'); ``` 4. **执行其他操作**：Puppeteer提供了丰富的API，可以模拟用户交互，如点击元素、填写表单、截取页面快照等。 5. **关闭浏览器**：最后，别忘了关闭浏览器实例，这通过`browser.close()`完成。 ```javascript await browser.close(); ``` Puppeteer的一个显著特点是广泛使用异步编程模型，通过async/await使得代码更易读、更易于理解和维护。此外，它还支持自定义配置，如设置代理、处理cookies、忽略HTTPS错误等，这些都可以通过传递给`launch()`的配置对象来完成。 Puppeteer为开发者提供了一种强大且灵活的方式来操控Chrome或Chromium，它在爬虫、自动化测试和网页抓取等领域都有广泛的应用。虽然它不支持除Node.js之外的其他平台，但其功能强大且易于上手，使其在开发社区中受到了广泛的欢迎。

Puppeteer使用示例详解使用示例详解

PhantomJS曾经是无头浏览器里的王者，测试、爬虫等都在使用，随着GoogleChrome Headless的出现，PhantomJS的作者已经明

确表示不在更新，而GoogleChrome Headless将会是未来爬虫的趋势，而测试将依然会使用Webdriver那套方案，GoogleChrome

Headless可以利用WebDriver调用，也可以使用其集成的API——Puppeteer（操纵木偶的人），他的功能和他的名字一样强大，可

以随意操控Chrome或Chromeium，缺点就是只有node的API,来看看他的图标：

Puppeteer是基于DevTools协议来控制headless Chrome的Node库，依赖6.4以上版本的node，本人是在接触这个软件时才开始学习

node，依然感觉到它的异步async/await超级强大，在Puppeteer中也大量使用异步来完成任务。

Puppeteer的安装可以使用node的包管理工具npm来安装：

npm i puppeteer

这里安装时会自动安装Chromeium，如果不需要则可以通过配置npm跳过下载，做为一名爬虫工程师我不会去讨论测试相关的使

用，接下来看看如何使用，和WebDriver类似，首先需要实例化brower，代码如下：

const puppeteer = require('puppeteer');

(async () => { 

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto('http://www.baidu.com');

await browser.close();

})();

这段代码执行结束时，你可能什么也没有感觉到，因为它在后台启动了一个Chromeium进程，打开了百度首页，接着就关闭了，当

然我们可以在前台打开Chromeium，这里就需要配置一下，所配置参数只需传入launch()即可，常用参数如下：

headless: 是否打开浏览器，默认为true

ignoreHTTPSErrors: 是否忽略https错误，默认为true

executablePath: 配置要调用浏览器的可执行路径，默认是同Puppeteer一起安装的Chromeium

slowMo：指定的毫秒延缓Puppeteer的操作

args：设置浏览器的相关参数，比如是否启动沙箱模式“–no-sandbox”，是否更换代理“–proxy-server”，具体参数请点此查看

使用示例如下：

const browser = await puppeteer.launch({headless:false, args: ["--no-sandbox",]}) //打开浏览器

打开新的窗口：

const page = await browser.newPage();

设置窗口大小

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38628310

粉丝: 4
资源: 950

Puppeteer：Google Chrome Headless 的强大操控工具

puppeteer爬取大众点评的demo

Puppeteer exporter for Katalon Recorder-crx插件

puppeteer实现html截图的示例代码

Puppeteer使用详解：基于DevTools协议控制headless Chrome

详解pyppeteer(python版puppeteer)基本使用

详解Node使用Puppeteer完成一次复杂的爬虫

Puppeteer库详解：Chrome官方自动化测试与爬虫利器

Linux环境下安装与配置Puppeteer详解

详解puppeteer的selenium

使用Puppeteer爬取微信文章的实现

最新资源