用puppeteer获取class="news mt10"下li标签下的a标签的值和链接

时间: 2023-02-06 11:12:35 浏览: 177

使用puppeteer爬取网站并抓出404无效链接

在当前的互联网环境下，网站内容的维护是一项繁重的工作，而自动化技术的出现则能够有效减轻人们的负担。特别是随着网页爬虫技术的发展，借助于工具如Puppeteer，我们可以高效地完成包括爬取网站内容、检测和抓取无效404链接在内的多种自动化任务。 Puppeteer是一个由Google Chrome团队提供的Node库，它提供了一套高级API来控制无头版Chrome或Chromium浏览器。无头浏览器指的是没有图形用户界面的浏览器，它们在后台运行，可以进行网页截图、网页爬取、自动化表单提交、UI测试等操作。在本篇中，我们将详细介绍如何使用Puppeteer来爬取网站并识别并记录其中的无效链接。文章中提到的步骤大致可以总结为以下几点： 1. 打开官网首页，获取页面上所有的链接。 2. 通过添加规则过滤掉外链，只保留内链。 3. 遍历访问这些链接，检查每个链接的状态，如果状态码为404，则记录下来。 4. 重复执行上述步骤，直到遍历完整个网站。文中提到的CukeTest是一个专业编辑自动化脚本的工具，但关于它的具体使用方法，文档中并未给出详细解释，因此我们更侧重于Puppeteer的使用方法。我们来看如何安装Puppeteer。通过npm（Node包管理器）安装Puppeteer的命令是`npm install puppeteer --save`。安装完成后，需要在项目中引入Puppeteer模块。接下来，我们需要创建一个Chromium实例，并利用Puppeteer提供的方法来操作这个实例。创建Chromium实例的代码如下： ```javascript const puppeteer = require('puppeteer'); async function run() { const browser = await puppeteer.launch({headless: true}); // headless: true表示无头模式 const page = await browser.newPage(); // 其他操作... await browser.close(); } run(); ``` 在获取页面链接时，可以使用`page.evaluate()`方法来执行JavaScript代码，并获取需要的结果。例如，获取页面上所有的`<a>`标签的`href`属性的代码如下： ```javascript const hrefs = await page.evaluate(() => { return Array.from(document.body.querySelectorAll('a[href]'), ({href}) => href); }); ``` 为了能够监听每个页面的响应状态，Puppeteer允许为每个请求添加响应事件监听。如果响应状态码为404，则可以将其记录到文件中。示例代码如下： ```javascript page.on('response', (res) => { let url = res.url(); if (res.status() == 404) { linktoFile(url, 'brokenLink.txt'); } else { if (isValidUrl(url)) { linktoFile(url, 'validUrl.txt'); } } }); ``` 上述代码片段中的`isValidUrl(url)`和`linktoFile(url, filepath)`是两个自定义函数，分别用于验证URL的有效性和将链接写入到指定文件中。这两个函数的实现细节依赖于你的具体需求，但基本逻辑是：使用正则表达式或URL解析方法检查链接格式，然后根据条件将链接追加到指定的文件。文章中提到了一些文件操作函数，如`filetoLinks`和`linktoFile`，它们分别用于从文件中读取链接以及将链接记录到文件中。这些函数涉及到了Node.js的`fs`模块（文件系统模块），通过该模块可以轻松完成文件读写等操作。总结来说，使用Puppeteer进行网站爬虫操作，以及识别并记录无效链接的工作流程大致分为：打开浏览器并导航至目标网站、获取页面上的所有链接并过滤掉外链、遍历所有内链进行状态码检查、记录下状态码为404的链接到文件中，最后关闭浏览器。这其中的关键点包括了使用Puppeteer的API控制浏览器行为，以及利用事件监听机制来获取页面响应状态，从而达到自动化检测和记录404无效链接的目的。

Puppeteer 是一个 Node.js 库，它提供了一组用来控制 Chrome 或者 Chromium 的 API。要获取 class 为 "news mt10" 的元素下的 li 标签中的 a 标签的值和链接，你可以这样做: 1. 使用 Puppeteer 的 `page.evaluate()` 方法在浏览器中执行 JavaScript 代码，通过 DOM 操作获取所需的信息。 2. 在浏览器中使用 DOM 方法获取 class 为 "news mt10" 的元素，例如 `document.querySelector('.news.mt10')`。 3. 获取该元素下的所有 li 标签，例如使用 `querySelectorAll()` 方法。 4. 循环遍历 li 标签，获取每个 li 标签中的 a 标签的值和链接。 5. 将获取的信息返回给 Node.js 程序。这里是一个示例代码： ``` const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('http://example.com'); const links = await page.evaluate(() => { // 获取 class 为 "news mt10" 的元素 const newsElement = document.querySelector('.news.mt10'); // 获取该元素下的所有 li 标签 const links = newsElement.querySelectorAll('li'); // 存储 a 标签的信息 const result = []; // 循环遍历 li 标签 for (const link of links) { result.push({ text: link.textContent, // a 标签的值 href: link.href, // a 标签的链接 }); } return result; }); console.log(links); await browser.close(); })(); ``` 希望这能帮

阅读全文

用puppeteer获取class="news mt10"下li标签下的a标签的值和链接

相关推荐

take-pdf-screenshot:使用Puppeteer和Netlify函数从URL创建PDF

Windows下Node爬虫神器Puppeteer安装记

用puppeteer获取class="news mt10"下li标签下的a标签的值和链接另一种方法

用puppeteer获取class="news mt10"下所有的li标签下的a标签的值和链接另一种方法

puppeteer点击class=“but”下的第五个li标签

使用 Puppeteer 获取class为grid-header clearfix下的a标签值和链接

使用 Puppeteer 获取ul 下面li标签下的a标签

puppeteer 获取某个class下a标签 的href

puppeteer 获取a标签 的href

stock-api:使用puppeteer和google获取最新的股价数据

使用Puppeteer获取国家旗帜属性的脚本指南

class='a-link-normal s-underline-text s-underline-link-text s-link-style a-text-normal' 如何通过 puppeteer 获取这个元素

puppeteer点击第五个li标签

puppeteer获取元素

puppeteer获取页面html

puppeteer获取指定的iframe

使用puppeteer查看第十一个li 并打印

使用puppeteer查看第十一个li下面的label

puppeteer获取不到iframe下面的子元素

最新推荐

java获取百度网盘真实下载链接的方法

EDR（ Endpoint Detection and Response：端点检测和响应）测试数据，这些数据可能来自主流工具 用于学习探索性分析

Elasticsearch核心改进：实现Translog与索引线程分离

管理建模和仿真的文件

病房呼叫系统设计基础：7个关键架构策略让你一步入门

Selenium如何获取Shadow DOM下的元素属性？

分享个人Vim与Git配置文件管理经验

"互动学习：行动中的多样性与论文攻读经历"

【Genesis 2000教程】：7个技巧助你精通界面布局与操作

求出所有100到200以内的偶数，并放在数组中，按照每行5个输出

puppeteer 获取某个class下a标签的href

puppeteer 获取a标签的href

EDR（ Endpoint Detection and Response：端点检测和响应）测试数据，这些数据可能来自主流工具用于学习探索性分析