用puppeteer获取class="news mt10"下li标签下的a标签的值和链接另一种方法
时间: 2023-02-06 16:25:41 浏览: 143
使用puppeteer爬取网站并抓出404无效链接
可以使用以下方法来获取所需的信息:
1. 使用 `document.querySelectorAll` 方法获取所有满足选择器 `.news.mt10 li a` 的元素。这会返回一个包含所有符合条件的元素的 NodeList。
2. 使用 `for` 循环遍历 NodeList。在循环体内,可以使用 `element.textContent` 和 `element.href` 属性获取文本内容和链接。
示例代码如下:
```
const links = document.querySelectorAll('.news.mt10 li a');
for (const link of links) {
console.log(link.textContent);
console.log(link.href);
}
```
这种方法需要在浏览器环境中执行,如果要在 Node.js 环境中使用 Puppeteer 获取这些信息,可以在使用 Puppeteer 打开页面之后,使用 Puppeteer 的 `page.evaluate` 方法在浏览器中执行上述代码。
另外,还可以使用 Puppeteer 的 `page.$$` 方法来获取符合选择器的元素列表,然后使用 `for` 循环遍历这些元素,并使用 `element.getProperty` 方法获取文本内容和链接。示例代码如下:
```
const links = await page.$$('.news.mt10 li a');
for (const link of links) {
const text = await link.getProperty('textContent');
const href = await link.getProperty('href');
console.log(await text.jsonValue());
console.log(await href.jsonValue());
}
```
阅读全文